🎯 学习目标

  • 理解概率的基本概念与计算
  • 掌握常见概率分布
  • 了解贝叶斯定理及其应用
  • 学会使用Python进行统计分析
概率统计
图:概率论帮助我们理解和处理不确定性

🎲 概率基础

基本概念

  • 样本空间:所有可能结果的集合
  • 事件:样本空间的子集
  • 概率:事件发生的可能性,范围[0,1]

基本公式

# 条件概率 P(A|B) = P(A∩B) / P(B) # 独立事件 P(A∩B) = P(A) × P(B) # 全概率公式 P(A) = Σ P(A|Bi) × P(Bi)

📊 常见概率分布

分布 类型 应用场景 参数
伯努利分布 离散 二分类问题 p
二项分布 离散 n次试验成功次数 n, p
正态分布 连续 自然现象、权重初始化 μ, σ
均匀分布 连续 随机采样 a, b
指数分布 连续 等待时间 λ

📈 正态分布(高斯分布)

概率密度函数

import numpy as np import matplotlib.pyplot as plt from scipy.stats import norm # 正态分布参数 mu = 0 # 均值 sigma = 1 # 标准差 # 生成数据 x = np.linspace(-5, 5, 100) y = norm.pdf(x, mu, sigma) # 绑图 plt.figure(figsize=(10, 6)) plt.plot(x, y, 'b-', linewidth=2) plt.title('正态分布 (μ=0, σ=1)') plt.xlabel('x') plt.ylabel('概率密度') plt.grid(True) plt.show() # 随机采样 samples = np.random.normal(mu, sigma, 1000)
💡
AI中的正态分布

神经网络权重初始化、噪声模型、梯度分布等都涉及正态分布。

🔄 贝叶斯定理

核心公式

P(A|B) = P(B|A) × P(A) / P(B)
后验概率

P(A|B)

似然

P(B|A)

先验概率

P(A)

证据

P(B)

# 贝叶斯分类器示例 # P(类别|特征) ∝ P(特征|类别) × P(类别) from sklearn.naive_bayes import GaussianNB import numpy as np # 训练数据 X = np.array([[1, 2], [2, 3], [3, 4], [4, 5]]) y = np.array([0, 0, 1, 1]) # 训练朴素贝叶斯分类器 clf = GaussianNB() clf.fit(X, y) # 预测 print(clf.predict([[2.5, 3.5]]))

📊 统计量计算

import numpy as np data = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10]) # 均值 mean = np.mean(data) # 中位数 median = np.median(data) # 标准差 std = np.std(data) # 方差 var = np.var(data) # 协方差矩阵(多变量) X = np.array([[1, 2], [3, 4], [5, 6]]) cov = np.cov(X.T) # 相关系数 corr = np.corrcoef(X.T) print(f"均值: {mean}") print(f"标准差: {std}")

📝 本节小结

  • • 概率论是处理不确定性的数学基础
  • • 正态分布在AI中应用最广泛
  • • 贝叶斯定理是许多机器学习算法的核心
  • • NumPy和SciPy提供了丰富的统计函数