- • 机器学习从数据中自动学习规律
- • 三大类型:监督学习、无监督学习、强化学习
- • 监督学习最常用,需要标注数据
- • 标准工作流程:数据→预处理→训练→评估
6.1 机器学习定义与分类
从数据中学习的艺术
🎯 学习目标
- 理解机器学习的核心定义
- 掌握机器学习的主要分类
- 了解各类学习方式的特点
- 学会选择合适的学习方法
图:机器学习让计算机从数据中自动学习
📖 什么是机器学习
经典定义
"机器学习是一门让计算机无需明确编程就能学习的学科。"
— Arthur Samuel, 1959
核心思想:从数据中学习规律,而不是由人工编写规则。
# 传统编程
规则(人工编写) + 数据 → 结果
# 机器学习
数据 + 结果 → 规则(模型自动学习)
📂 机器学习分类
监督学习
有标签数据,学习输入→输出映射
- 分类
- 回归
无监督学习
无标签数据,发现隐藏结构
- 聚类
- 降维
强化学习
通过试错学习最优策略
- 游戏AI
- 机器人控制
📊 学习类型对比
| 特征 | 监督学习 | 无监督学习 | 强化学习 |
|---|---|---|---|
| 数据标签 | 需要 | 不需要 | 奖励信号 |
| 学习目标 | 预测结果 | 发现模式 | 最大化奖励 |
| 典型任务 | 分类、回归 | 聚类、降维 | 决策、控制 |
| 应用举例 | 垃圾邮件识别 | 客户细分 | AlphaGo |
🔄 机器学习工作流程
1
数据收集
2
数据预处理
3
特征工程
4
模型训练
5
模型评估
# 典型机器学习代码结构
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
# 1. 数据准备
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42
)
# 2. 特征缩放
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
# 3. 模型训练
model = RandomForestClassifier(random_state=42)
model.fit(X_train_scaled, y_train)
# 4. 模型评估
y_pred = model.predict(X_test_scaled)
print(f"准确率: {accuracy_score(y_test, y_pred):.2%}")
📝 本节小结
✅