本文所涉及的安装包可在 百度网盘 下载。
安装 NVIDIA drivers
下载
访问 NVIDIA drivers 下载页面,选择显卡系列和操作系统。例如:
- 产品类型:GeForce
- 产品系列:GeForce RTX 40 Series
- 产品:NVIDIA GeForce RTX 4090
- 操作系统:Windows 11
- 语言:English(US)
选择之后,点击 Find 后,跳转到驱动下载页,如果主要用于玩游戏,则选择 Game Ready Drivers,如果主要用于内容创作,则选择 Studio Drivers,我们这里选择 Studio Drivers,点击下载即可。
安装
双击下载的 566.14-desktop-win10-win11-64bit-international-nsd-dch-whql.exe 安装文件启动安装向导后,按照默认选择一路安装即可。
验证
在任务栏搜索中搜索 “NVIDIA Control Panel”,选择 “NVIDIA Control Panel”,能打开该控制面板,则表示安装成功
接下来,安装 CUDA 和 cuDNN,由于 NVIDIA drivers/CUDA/cuDNN 三者具有适配性问题,所以安装前需要查看下三者的版本 适配矩阵
安装 CUDA
下载
访问 CUDA 下载页面,根据上述的兼容矩阵选择 CUDA 版本,之后选择操作系统和安装类型。例如:
- 操作系统:Windows
- 系统架构:x86_64
- 系统版本:11
- 安装类型:exe(local)
点击下载。
安装
双击下载的 cuda_12.6.2_560.94_windows.exe 文件,之后按照默认配置一路安装即可。
设置
设置环境变量:在“此电脑”右击 => 属性 => 高级系统设置 => 环境变量 => 点击系统环境变量里的 Path 变量 => 新建三条值:
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6\bin
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6\libnvvp
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6\lib\x64
在系统环境变量里新建两个变量(如果没有的话),变量名和变量值分别如下:
CUDA_PATH
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6
CUDA_PATH_V12_6
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6
验证
打开 cmd,输入 nvcc -V
,输出 cuda 的版本号,则表示成功。
安装 cuDNN
下载
访问 cuDNN 下载页面,下载与适配矩阵兼容的 cuDNN 压缩包。
安装
解压缩 cudnn-windows-x86_64-9.5.1.17_cuda12-archive.zip,做以下三个拷贝:
拷贝 bin 下的全部文件到 C:\Program Files\NVIDIA\CUDNN\v9.5\bin 下
拷贝 include 下的全部文件到 C:\Program Files\NVIDIA\CUDNN\v9.x\include 下
拷贝 lib\x64 下的全部文件到 C:\Program Files\NVIDIA\CUDNN\v9.x\lib 下
注意,v9.5 文件夹之所命名为 v9.5,是因为我们下载的 cuDNN 的版本号是 9.5.1.17。即文件夹名是版本号的前两位。
设置
设置环境变量:在“此电脑”右击 => 属性 => 高级系统设置 => 环境变量 => 点击系统环境变量里的 Path 变量 => 新建:
C:\Program Files\NVIDIA\CUDNN\v9.5\bin
验证
在 cmd 中执行:
cd "C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6\extras\demo_suite"
bandwidthTest.exe
输出如下:
[CUDA Bandwidth Test] - Starting...
Running on...
Device 0: NVIDIA GeForce RTX 4090
Quick Mode
Host to Device Bandwidth, 1 Device(s)
PINNED Memory Transfers
Transfer Size (Bytes) Bandwidth(MB/s)
33554432 23419.7
Device to Host Bandwidth, 1 Device(s)
PINNED Memory Transfers
Transfer Size (Bytes) Bandwidth(MB/s)
33554432 25668.8
Device to Device Bandwidth, 1 Device(s)
PINNED Memory Transfers
Transfer Size (Bytes) Bandwidth(MB/s)
33554432 2223911.5
Result = PASS
再执行 deviceQuery.exe
,输出如下:
deviceQuery.exe Starting...
CUDA Device Query (Runtime API) version (CUDART static linking)
Detected 1 CUDA Capable device(s)
Device 0: "NVIDIA GeForce RTX 4090"
CUDA Driver Version / Runtime Version 12.6 / 12.6
CUDA Capability Major/Minor version number: 8.9
Total amount of global memory: 24563 MBytes (25756565504 bytes)
...
deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 12.6, CUDA Runtime Version = 12.6, NumDevs = 1, Device0 = NVIDIA GeForce RTX 4090
Result = PASS
则表示安装成功!