Skip to content

本文所涉及的安装包可在 百度网盘 下载。

安装 NVIDIA drivers

下载

访问 NVIDIA drivers 下载页面,选择显卡系列和操作系统。例如:

  • 产品类型:GeForce
  • 产品系列:GeForce RTX 40 Series
  • 产品:NVIDIA GeForce RTX 4090
  • 操作系统:Windows 11
  • 语言:English(US)

选择之后,点击 Find 后,跳转到驱动下载页,如果主要用于玩游戏,则选择 Game Ready Drivers,如果主要用于内容创作,则选择 Studio Drivers,我们这里选择 Studio Drivers,点击下载即可。

安装

双击下载的 566.14-desktop-win10-win11-64bit-international-nsd-dch-whql.exe 安装文件启动安装向导后,按照默认选择一路安装即可。

验证

在任务栏搜索中搜索 “NVIDIA Control Panel”,选择 “NVIDIA Control Panel”,能打开该控制面板,则表示安装成功

接下来,安装 CUDA 和 cuDNN,由于 NVIDIA drivers/CUDA/cuDNN 三者具有适配性问题,所以安装前需要查看下三者的版本 适配矩阵

安装 CUDA

下载

访问 CUDA 下载页面,根据上述的兼容矩阵选择 CUDA 版本,之后选择操作系统和安装类型。例如:

  • 操作系统:Windows
  • 系统架构:x86_64
  • 系统版本:11
  • 安装类型:exe(local)

点击下载。

安装

双击下载的 cuda_12.6.2_560.94_windows.exe 文件,之后按照默认配置一路安装即可。

设置

设置环境变量:在“此电脑”右击 => 属性 => 高级系统设置 => 环境变量 => 点击系统环境变量里的 Path 变量 => 新建三条值:

shell
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6\bin
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6\libnvvp
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6\lib\x64

在系统环境变量里新建两个变量(如果没有的话),变量名和变量值分别如下:

shell
CUDA_PATH
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6

CUDA_PATH_V12_6
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6

验证

打开 cmd,输入 nvcc -V,输出 cuda 的版本号,则表示成功。

安装 cuDNN

下载

访问 cuDNN 下载页面,下载与适配矩阵兼容的 cuDNN 压缩包。

安装

解压缩 cudnn-windows-x86_64-9.5.1.17_cuda12-archive.zip,做以下三个拷贝:

shell
拷贝 bin 下的全部文件到 C:\Program Files\NVIDIA\CUDNN\v9.5\bin
拷贝 include 下的全部文件到 C:\Program Files\NVIDIA\CUDNN\v9.x\include
拷贝 lib\x64 下的全部文件到 C:\Program Files\NVIDIA\CUDNN\v9.x\lib

注意,v9.5 文件夹之所命名为 v9.5,是因为我们下载的 cuDNN 的版本号是 9.5.1.17。即文件夹名是版本号的前两位。

设置

设置环境变量:在“此电脑”右击 => 属性 => 高级系统设置 => 环境变量 => 点击系统环境变量里的 Path 变量 => 新建:

shell
C:\Program Files\NVIDIA\CUDNN\v9.5\bin

验证

在 cmd 中执行:

shell
cd "C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6\extras\demo_suite"
bandwidthTest.exe

输出如下:

shell
[CUDA Bandwidth Test] - Starting...
Running on...

 Device 0: NVIDIA GeForce RTX 4090
 Quick Mode

 Host to Device Bandwidth, 1 Device(s)
 PINNED Memory Transfers
   Transfer Size (Bytes)        Bandwidth(MB/s)
   33554432                     23419.7

 Device to Host Bandwidth, 1 Device(s)
 PINNED Memory Transfers
   Transfer Size (Bytes)        Bandwidth(MB/s)
   33554432                     25668.8

 Device to Device Bandwidth, 1 Device(s)
 PINNED Memory Transfers
   Transfer Size (Bytes)        Bandwidth(MB/s)
   33554432                     2223911.5

Result = PASS

再执行 deviceQuery.exe,输出如下:

shell
deviceQuery.exe Starting...

 CUDA Device Query (Runtime API) version (CUDART static linking)

Detected 1 CUDA Capable device(s)

Device 0: "NVIDIA GeForce RTX 4090"
  CUDA Driver Version / Runtime Version          12.6 / 12.6
  CUDA Capability Major/Minor version number:    8.9
  Total amount of global memory:                 24563 MBytes (25756565504 bytes)
  ...
deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 12.6, CUDA Runtime Version = 12.6, NumDevs = 1, Device0 = NVIDIA GeForce RTX 4090
Result = PASS

则表示安装成功!