2.5 GPU环境配置与CUDA安装

🎯 学习目标

理解GPU在深度学习中的作用
掌握CUDA和cuDNN的安装
学会验证GPU环境配置
了解云GPU平台的使用

图：GPU是深度学习训练的核心硬件

⚡ 为什么需要GPU？

CPU vs GPU对比

特性	CPU	GPU
核心数	4-64	数千
并行能力	有限	极强
适合任务	串行逻辑	矩阵运算
深度学习	慢10-100x	标准选择

深度学习的GPU优势

神经网络的训练是大量矩阵运算
GPU可并行执行数千个计算
训练速度提升10-100倍
支持更大的模型和数据批量

🔧 CUDA安装指南

第一步：检查显卡兼容性

# Windows - 打开命令提示符
nvidia-smi

# 应该显示类似输出：
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 535.104.05   Driver Version: 535.104.05   CUDA Version: 12.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  RTX 3080        Off  | 00000000:01:00.0  On |                  N/A |
| 30%   45C    P8    25W / 320W |   1234MiB / 10240MiB |      5%      Default |
+-------------------------------+----------------------+----------------------+
        

第二步：安装CUDA Toolkit

📌

版本兼容性关键

PyTorch和TensorFlow需要特定CUDA版本。安装前先查看框架官网的版本要求！

框架	推荐CUDA版本	Python版本
PyTorch 2.x	CUDA 11.8 / 12.1	3.8-3.11
TensorFlow 2.x	CUDA 11.8 / 12.x	3.8-3.11

# 下载CUDA Toolkit
# 访问：https://developer.nvidia.com/cuda-downloads

# 选择对应平台后下载安装包
# Windows: .exe 安装包
# Linux: .run 或 .deb 包

# Linux安装示例
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin
sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600
sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/3bf863cc.pub
sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/ /"
sudo apt-get update
sudo apt-get -y install cuda
        

📦 安装cuDNN

cuDNN是NVIDIA的深度神经网络加速库，对训练速度有显著提升。

# 下载cuDNN（需要NVIDIA账号）
# https://developer.nvidia.com/cudnn

# 解压并复制到CUDA目录
# Windows: 解压后将文件复制到 CUDA安装目录
# Linux:
tar -xvf cudnn-linux-x86_64-8.x.x.x_cudaX.Y-archive.tar.xz
cd cudnn-linux-x86_64-8.x.x.x_cudaX.Y-archive
sudo cp include/cudnn*.h /usr/local/cuda/include
sudo cp lib/libcudnn* /usr/local/cuda/lib64
sudo chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*
        

✅ 验证GPU环境

# PyTorch验证
import torch

# 检查CUDA是否可用
print(torch.cuda.is_available())  # 应输出 True

# 查看CUDA版本
print(torch.version.cuda)

# 查看GPU数量
print(torch.cuda.device_count())

# 查看GPU名称
print(torch.cuda.get_device_name(0))

# 测试GPU计算
x = torch.randn(1000, 1000).cuda()
y = torch.randn(1000, 1000).cuda()
z = torch.matmul(x, y)
print(z.device)  # 应输出 cuda:0
      

# TensorFlow验证
import tensorflow as tf

# 查看GPU设备
print(tf.config.list_physical_devices('GPU'))

# 测试GPU计算
with tf.device('/GPU:0'):
    a = tf.constant([[1.0, 2.0], [3.0, 4.0]])
    b = tf.constant([[1.0, 2.0], [3.0, 4.0]])
    c = tf.matmul(a, b)
    print(c)
      

☁️ 云GPU平台推荐

Google Colab

免费GPU，适合学习和实验

免费

Kaggle Kernels

免费GPU，数据科学竞赛

免费

AWS/GCP/Azure

企业级GPU云服务

付费

⚠️

常见问题

CUDA版本不匹配：确保CUDA、cuDNN和PyTorch版本兼容
驱动版本过低：更新NVIDIA显卡驱动到最新版本
显存不足：减小batch_size或使用gradient checkpointing

📝 本节小结

✅

• GPU的并行计算能力对深度学习至关重要
• CUDA和cuDNN是NVIDIA GPU的必备软件
• 安装前务必检查版本兼容性
• 云GPU平台是无显卡用户的良好选择