安装大模型本地运行利器 ollama

官方文档

https://ollama.com/

功能介绍

一个便捷的在本地下载和运行大模型的工具

安装与设置

安装

ollama 支持 windows，linux，macOS。下面以 windows11 为例，进行安装。

去官网下载页选择 Windows 系统，下载安装文件 OllamaSetup.exe。

双击 OllamaSetup.exe，按照提示一路安装即可（默认安装在：C:\Users\Administrator\AppData\Local\Programs\Ollama）。安装完成之后，在 cmd 中输入

shell

PS C:\Users\Administrator> ollama -v
ollama version is 0.5.7 // 表示安装成功

如果不成功，将 C:\Users\Administrator\AppData\Local\Programs\Ollama 配置到环境变量的 Path 变量中

常用设置

ollama 所有可设置参数在执行 ollama serve 启动时，在启动日志中可以看到。常用的设置参数如下，如有需要，设置到环境变量中：

OLLAMA_MODELS：模型文件的存放目录，默认在 C 盘，建议设置到非系统盘，例如 D:\software\ollama\models
OLLAMA_HOST：ollama 服务监听的网络地址，默认为127.0.0.1，如果想要允许其他电脑访问，设置成 0.0.0.0
OLLAMA_PORT：ollama 服务监听的默认端口，默认为11434
OLLAMA_ORIGINS：http 请求来源
OLLAMA_KEEP_ALIVE：大模型加载到内存中后的存活时间，默认为5m，即5分钟（如纯数字300代表300秒，0代表处理请求响应后立即卸载模型，任何负数则表示一直存活）
OLLAMA_NUM_PARALLEL：请求处理的并发数量
OLLAMA_MAX_QUEUE：请求队列长度，默认值为512，超过队列长度的请求会被抛弃
OLLAMA_MAX_LOADED_MODELS：最多同时加载到内存中模型的数量，默认为1 （即只能有1个模型在内存中）

更新

默认会自动更新，如果需要手动更新，需要重新下载安装包，重新安装。

核心命令

shell

C:\Users\Administrator>ollama
Usage:
  ollama [flags]
  ollama [command]

Available Commands:
  serve       Start ollama
  create      Create a model from a Modelfile
  show        Show information for a model
  run         Run a model
  stop        Stop a running model
  pull        Pull a model from a registry
  push        Push a model to a registry
  list        List models
  ps          List running models
  cp          Copy a model
  rm          Remove a model
  help        Help about any command

Flags:
  -h, --help      help for ollama
  -v, --version   Show version information

Use "ollama [command] --help" for more information about a command.

以上就是 ollama 可以执行的命令。

列出当前已下载的模型

shell

C:\Users\Administrator>ollama list
NAME               ID              SIZE      MODIFIED
deepseek-r1:32b    38056bbcbb2d    19 GB     11 minutes ago
llama3.1:8b        42182419e950    4.7 GB    3 months ago

查看指定模型的信息

shell

C:\Users\Administrator>ollama show deepseek-r1:32b
  Model
    architecture        qwen2
    parameters          32.8B
    context length      131072
    embedding length    5120
    quantization        Q4_K_M

  Parameters
    stop    "<｜begin▁of▁sentence｜>"
    stop    "<｜end▁of▁sentence｜>"
    stop    "<｜User｜>"
    stop    "<｜Assistant｜>"

  License
    MIT License
    Copyright (c) 2023 DeepSeek

启动 ollama

shell

ollama serve
2025/01/29 12:07:08 routes.go:1187: INFO server config env="map[CUDA_VISIBLE_DEVICES: GPU_DEVICE_ORDINAL: HIP_VISIBLE_DEVICES: HSA_OVERRIDE_GFX_VERSION: HTTPS_PROXY: HTTP_PROXY: NO_PROXY: OLLAMA_DEBUG:false OLLAMA_FLASH_ATTENTION:false OLLAMA_GPU_OVERHEAD:0 OLLAMA_HOST:http://127.0.0.1:11434 OLLAMA_INTEL_GPU:false OLLAMA_KEEP_ALIVE:5m0s OLLAMA_KV_CACHE_TYPE: OLLAMA_LLM_LIBRARY: OLLAMA_LOAD_TIMEOUT:5m0s OLLAMA_MAX_LOADED_MODELS:0 OLLAMA_MAX_QUEUE:512 OLLAMA_MODELS:D:\\software\\ollama\\models OLLAMA_MULTIUSER_CACHE:false OLLAMA_NOHISTORY:false OLLAMA_NOPRUNE:false OLLAMA_NUM_PARALLEL:0 OLLAMA_ORIGINS:[http://localhost https://localhost http://localhost:* https://localhost:* http://127.0.0.1 https://127.0.0.1 http://127.0.0.1:* https://127.0.0.1:* http://0.0.0.0 https://0.0.0.0 http://0.0.0.0:* https://0.0.0.0:* app://* file://* tauri://* vscode-webview://*] OLLAMA_SCHED_SPREAD:false ROCR_VISIBLE_DEVICES:]"
time=2025-01-29T12:07:08.703+08:00 level=INFO source=images.go:432 msg="total blobs: 10"
time=2025-01-29T12:07:08.704+08:00 level=INFO source=images.go:439 msg="total unused blobs removed: 0"
time=2025-01-29T12:07:08.704+08:00 level=INFO source=routes.go:1238 msg="Listening on 127.0.0.1:11434 (version 0.5.7)"
time=2025-01-29T12:07:08.704+08:00 level=INFO source=routes.go:1267 msg="Dynamic LLM libraries" runners="[cuda_v11_avx cuda_v12_avx rocm_avx cpu cpu_avx cpu_avx2]"
time=2025-01-29T12:07:08.704+08:00 level=INFO source=gpu.go:226 msg="looking for compatible GPUs"
time=2025-01-29T12:07:08.704+08:00 level=INFO source=gpu_windows.go:167 msg=packages count=1
time=2025-01-29T12:07:08.704+08:00 level=INFO source=gpu_windows.go:183 msg="efficiency cores detected" maxEfficiencyClass=1
time=2025-01-29T12:07:08.704+08:00 level=INFO source=gpu_windows.go:214 msg="" package=0 cores=16 efficiency=8 threads=24
time=2025-01-29T12:07:08.821+08:00 level=INFO source=gpu.go:334 msg="detected OS VRAM overhead" id=GPU-d110dd87-4fcf-d306-5c3b-9d0aebf99fe5 library=cuda compute=8.9 driver=12.6 name="NVIDIA GeForce RTX 4090" overhead="757.8 MiB"
time=2025-01-29T12:07:08.822+08:00 level=INFO source=types.go:131 msg="inference compute" id=GPU-d110dd87-4fcf-d306-5c3b-9d0aebf99fe5 library=cuda variant=v12 compute=8.9 driver=12.6 name="NVIDIA GeForce RTX 4090" total="24.0 GiB" available="22.5 GiB"

启动日志的第一行，env 中列出了所有可设置的环境变量。

下载指定模型

shell

PS C:\Users\Administrator> ollama pull deepseek-r1:32b

在此处可以查看 ollama 支持的所有模型，选择一个模型进行模型下载主页，如下所示：

复制命令，进行 cmd 进行执行，即可下载并运行模型

运行指定模型

shell

PS C:\Users\Administrator> ollama run deepseek-r1:32b
>>>

如果模型没有下载过，则会先下载模型，再运行。

查看正在运行的模型

shell

PS C:\Users\Administrator> ollama ps
NAME               ID              SIZE     PROCESSOR    UNTIL
deepseek-r1:32b    38056bbcbb2d    23 GB    100% GPU     4 minutes from now

文章的最后，如果您觉得本文对您有用，请打赏一杯咖啡！感谢！

安装大模型本地运行利器 ollama ​

功能介绍 ​

安装与设置 ​

安装 ​

常用设置 ​

更新 ​

核心命令 ​

列出当前已下载的模型 ​

查看指定模型的信息 ​

启动 ollama ​

下载指定模型 ​

运行指定模型 ​

查看正在运行的模型 ​

安装大模型本地运行利器 ollama

功能介绍

安装与设置

安装

常用设置

更新

核心命令

列出当前已下载的模型

查看指定模型的信息

启动 ollama

下载指定模型

运行指定模型

查看正在运行的模型