🎯 学习目标

  • 理解GPU在深度学习中的作用
  • 掌握CUDA和cuDNN的安装
  • 学会验证GPU环境配置
  • 了解云GPU平台的使用
GPU计算
图:GPU是深度学习训练的核心硬件

为什么需要GPU?

CPU vs GPU对比

特性 CPU GPU
核心数 4-64 数千
并行能力 有限 极强
适合任务 串行逻辑 矩阵运算
深度学习 慢10-100x 标准选择

深度学习的GPU优势

  • 神经网络的训练是大量矩阵运算
  • GPU可并行执行数千个计算
  • 训练速度提升10-100倍
  • 支持更大的模型和数据批量

🔧 CUDA安装指南

第一步:检查显卡兼容性

# Windows - 打开命令提示符 nvidia-smi # 应该显示类似输出: +-----------------------------------------------------------------------------+ | NVIDIA-SMI 535.104.05 Driver Version: 535.104.05 CUDA Version: 12.2 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | |===============================+======================+======================| | 0 RTX 3080 Off | 00000000:01:00.0 On | N/A | | 30% 45C P8 25W / 320W | 1234MiB / 10240MiB | 5% Default | +-------------------------------+----------------------+----------------------+

第二步:安装CUDA Toolkit

📌
版本兼容性关键

PyTorch和TensorFlow需要特定CUDA版本。安装前先查看框架官网的版本要求!

框架 推荐CUDA版本 Python版本
PyTorch 2.x CUDA 11.8 / 12.1 3.8-3.11
TensorFlow 2.x CUDA 11.8 / 12.x 3.8-3.11
# 下载CUDA Toolkit # 访问:https://developer.nvidia.com/cuda-downloads # 选择对应平台后下载安装包 # Windows: .exe 安装包 # Linux: .run 或 .deb 包 # Linux安装示例 wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600 sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/3bf863cc.pub sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/ /" sudo apt-get update sudo apt-get -y install cuda

📦 安装cuDNN

cuDNN是NVIDIA的深度神经网络加速库,对训练速度有显著提升。

# 下载cuDNN(需要NVIDIA账号) # https://developer.nvidia.com/cudnn # 解压并复制到CUDA目录 # Windows: 解压后将文件复制到 CUDA安装目录 # Linux: tar -xvf cudnn-linux-x86_64-8.x.x.x_cudaX.Y-archive.tar.xz cd cudnn-linux-x86_64-8.x.x.x_cudaX.Y-archive sudo cp include/cudnn*.h /usr/local/cuda/include sudo cp lib/libcudnn* /usr/local/cuda/lib64 sudo chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*

验证GPU环境

# PyTorch验证 import torch # 检查CUDA是否可用 print(torch.cuda.is_available()) # 应输出 True # 查看CUDA版本 print(torch.version.cuda) # 查看GPU数量 print(torch.cuda.device_count()) # 查看GPU名称 print(torch.cuda.get_device_name(0)) # 测试GPU计算 x = torch.randn(1000, 1000).cuda() y = torch.randn(1000, 1000).cuda() z = torch.matmul(x, y) print(z.device) # 应输出 cuda:0
# TensorFlow验证 import tensorflow as tf # 查看GPU设备 print(tf.config.list_physical_devices('GPU')) # 测试GPU计算 with tf.device('/GPU:0'): a = tf.constant([[1.0, 2.0], [3.0, 4.0]]) b = tf.constant([[1.0, 2.0], [3.0, 4.0]]) c = tf.matmul(a, b) print(c)

☁️ 云GPU平台推荐

Google Colab

免费GPU,适合学习和实验

免费

Kaggle Kernels

免费GPU,数据科学竞赛

免费

AWS/GCP/Azure

企业级GPU云服务

付费
⚠️
常见问题
  • CUDA版本不匹配:确保CUDA、cuDNN和PyTorch版本兼容
  • 驱动版本过低:更新NVIDIA显卡驱动到最新版本
  • 显存不足:减小batch_size或使用gradient checkpointing

📝 本节小结

  • • GPU的并行计算能力对深度学习至关重要
  • • CUDA和cuDNN是NVIDIA GPU的必备软件
  • • 安装前务必检查版本兼容性
  • • 云GPU平台是无显卡用户的良好选择