6.1 机器学习定义与分类

🎯 学习目标

理解机器学习的核心定义
掌握机器学习的主要分类
了解各类学习方式的特点
学会选择合适的学习方法

📖 什么是机器学习

经典定义

"机器学习是一门让计算机无需明确编程就能学习的学科。"
— Arthur Samuel, 1959

核心思想：从数据中学习规律，而不是由人工编写规则。

# 传统编程
规则(人工编写) + 数据 → 结果

# 机器学习
数据 + 结果 → 规则(模型自动学习)
        

📂 机器学习分类

监督学习

有标签数据，学习输入→输出映射

分类
回归

无监督学习

无标签数据，发现隐藏结构

聚类
降维

强化学习

通过试错学习最优策略

游戏AI
机器人控制

📊 学习类型对比

特征	监督学习	无监督学习	强化学习
数据标签	需要	不需要	奖励信号
学习目标	预测结果	发现模式	最大化奖励
典型任务	分类、回归	聚类、降维	决策、控制
应用举例	垃圾邮件识别	客户细分	AlphaGo

🔄 机器学习工作流程

1

数据收集

2

数据预处理

3

特征工程

4

模型训练

5

模型评估

# 典型机器学习代码结构
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# 1. 数据准备
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# 2. 特征缩放
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 3. 模型训练
model = RandomForestClassifier(random_state=42)
model.fit(X_train_scaled, y_train)

# 4. 模型评估
y_pred = model.predict(X_test_scaled)
print(f"准确率: {accuracy_score(y_test, y_pred):.2%}")
      

📝 本节小结

✅

• 机器学习从数据中自动学习规律
• 三大类型：监督学习、无监督学习、强化学习
• 监督学习最常用，需要标注数据
• 标准工作流程：数据→预处理→训练→评估