3.2 概率论与统计基础

🎯 学习目标

理解概率的基本概念与计算
掌握常见概率分布
了解贝叶斯定理及其应用
学会使用Python进行统计分析

🎲 概率基础

基本概念

样本空间：所有可能结果的集合
事件：样本空间的子集
概率：事件发生的可能性，范围[0,1]

基本公式

# 条件概率
P(A|B) = P(A∩B) / P(B)

# 独立事件
P(A∩B) = P(A) × P(B)

# 全概率公式
P(A) = Σ P(A|Bi) × P(Bi)
          

📊 常见概率分布

分布	类型	应用场景	参数
伯努利分布	离散	二分类问题	p
二项分布	离散	n次试验成功次数	n, p
正态分布	连续	自然现象、权重初始化	μ, σ
均匀分布	连续	随机采样	a, b
指数分布	连续	等待时间	λ

📈 正态分布（高斯分布）

概率密度函数

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm

# 正态分布参数
mu = 0      # 均值
sigma = 1   # 标准差

# 生成数据
x = np.linspace(-5, 5, 100)
y = norm.pdf(x, mu, sigma)

# 绑图
plt.figure(figsize=(10, 6))
plt.plot(x, y, 'b-', linewidth=2)
plt.title('正态分布 (μ=0, σ=1)')
plt.xlabel('x')
plt.ylabel('概率密度')
plt.grid(True)
plt.show()

# 随机采样
samples = np.random.normal(mu, sigma, 1000)
        

💡

AI中的正态分布

神经网络权重初始化、噪声模型、梯度分布等都涉及正态分布。

🔄 贝叶斯定理

核心公式

P(A|B) = P(B|A) × P(A) / P(B)

后验概率

P(A|B)

似然

P(B|A)

先验概率

P(A)

证据

P(B)

# 贝叶斯分类器示例
# P(类别|特征) ∝ P(特征|类别) × P(类别)

from sklearn.naive_bayes import GaussianNB
import numpy as np

# 训练数据
X = np.array([[1, 2], [2, 3], [3, 4], [4, 5]])
y = np.array([0, 0, 1, 1])

# 训练朴素贝叶斯分类器
clf = GaussianNB()
clf.fit(X, y)

# 预测
print(clf.predict([[2.5, 3.5]]))
      

📊 统计量计算

import numpy as np

data = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

# 均值
mean = np.mean(data)

# 中位数
median = np.median(data)

# 标准差
std = np.std(data)

# 方差
var = np.var(data)

# 协方差矩阵（多变量）
X = np.array([[1, 2], [3, 4], [5, 6]])
cov = np.cov(X.T)

# 相关系数
corr = np.corrcoef(X.T)

print(f"均值: {mean}")
print(f"标准差: {std}")
      

📝 本节小结

✅

• 概率论是处理不确定性的数学基础
• 正态分布在AI中应用最广泛
• 贝叶斯定理是许多机器学习算法的核心
• NumPy和SciPy提供了丰富的统计函数