data visulization

Scikit-learn¶

scikit-learn（简称 sklearn）是一个基于 Python 的开源机器学习库，提供了大量用于数据挖掘、数据分析和建模的工具。它建立在 NumPy、SciPy 和 matplotlib 之上，以其简洁统一的 API、丰富的算法实现和高效的性能，成为最广泛使用的机器学习框架之一。

主要特点¶

统一的接口设计 scikit-learn 中的所有模型（如分类器、回归器、聚类算法等）都遵循一致的接口设计，包括 fit()、predict()、transform()、score() 等方法，使得不同算法之间的切换十分方便。
丰富的算法库
- 监督学习：线性回归、逻辑回归、决策树、随机森林、支持向量机（SVM）、K 近邻（KNN）等。
- 无监督学习：K-Means、DBSCAN、PCA（主成分分析）等。
- 模型选择与评估：交叉验证、网格搜索、学习曲线、混淆矩阵等。
- 预处理工具：标准化、特征选择、特征降维、类别编码等。
与 Python 科学计算生态无缝衔接与 NumPy 的数组结构兼容，可轻松与 pandas、matplotlib、seaborn、xgboost、tensorflow 等库配合使用。
高性能实现大部分算法底层由 Cython 实现，兼顾易用性和执行效率，适合中等规模的数据集建模和实验。

常见应用场景¶

文本分类、情感分析
图像特征提取与分类
医疗数据分析与预测
客户分群与推荐系统
异常检测与金融风控

安装¶

pip install scikit-learn

常见框架对比¶

框架	主要用途	核心特点	典型应用场景
Scikit-learn	传统机器学习	简单易用、封装完善、算法齐全	分类、回归、聚类、特征工程、小型实验
TensorFlow	深度学习框架	图计算模型、生产部署强、生态完备	深度神经网络（CNN、RNN、Transformer）、工业部署
PyTorch	深度学习框架	动态计算图、代码更 Pythonic、研究友好	学术研究、模型开发与实验、LLM 训练