🎯 学习目标

  • 理解机器学习的核心定义
  • 掌握机器学习的主要分类
  • 了解各类学习方式的特点
  • 学会选择合适的学习方法
机器学习
图:机器学习让计算机从数据中自动学习

📖 什么是机器学习

经典定义

"机器学习是一门让计算机无需明确编程就能学习的学科。"
— Arthur Samuel, 1959

核心思想:从数据中学习规律,而不是由人工编写规则。

# 传统编程 规则(人工编写) + 数据 → 结果 # 机器学习 数据 + 结果 → 规则(模型自动学习)

📂 机器学习分类

监督学习

有标签数据,学习输入→输出映射

  • 分类
  • 回归

无监督学习

无标签数据,发现隐藏结构

  • 聚类
  • 降维

强化学习

通过试错学习最优策略

  • 游戏AI
  • 机器人控制

📊 学习类型对比

特征 监督学习 无监督学习 强化学习
数据标签 需要 不需要 奖励信号
学习目标 预测结果 发现模式 最大化奖励
典型任务 分类、回归 聚类、降维 决策、控制
应用举例 垃圾邮件识别 客户细分 AlphaGo

🔄 机器学习工作流程

1
数据收集
2
数据预处理
3
特征工程
4
模型训练
5
模型评估
# 典型机器学习代码结构 from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import accuracy_score # 1. 数据准备 X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, random_state=42 ) # 2. 特征缩放 scaler = StandardScaler() X_train_scaled = scaler.fit_transform(X_train) X_test_scaled = scaler.transform(X_test) # 3. 模型训练 model = RandomForestClassifier(random_state=42) model.fit(X_train_scaled, y_train) # 4. 模型评估 y_pred = model.predict(X_test_scaled) print(f"准确率: {accuracy_score(y_test, y_pred):.2%}")

📝 本节小结

  • • 机器学习从数据中自动学习规律
  • • 三大类型:监督学习、无监督学习、强化学习
  • • 监督学习最常用,需要标注数据
  • • 标准工作流程:数据→预处理→训练→评估