Skip to content

安装大模型本地运行利器 ollama

功能介绍

一个便捷的在本地下载和运行大模型的工具

安装与设置

安装

ollama 支持 windows,linux,macOS。下面以 windows11 为例,进行安装。

官网下载页 选择 Windows 系统,下载安装文件 OllamaSetup.exe。

img.png

双击 OllamaSetup.exe,按照提示一路安装即可(默认安装在:C:\Users\Administrator\AppData\Local\Programs\Ollama)。安装完成之后,在 cmd 中输入

shell
PS C:\Users\Administrator> ollama -v
ollama version is 0.5.7 // 表示安装成功

如果不成功,将 C:\Users\Administrator\AppData\Local\Programs\Ollama 配置到环境变量的 Path 变量中

常用设置

ollama 所有可设置参数在执行 ollama serve 启动时,在启动日志中可以看到。常用的设置参数如下,如有需要,设置到环境变量中:

  • OLLAMA_MODELS:模型文件的存放目录,默认在 C 盘,建议设置到非系统盘,例如 D:\software\ollama\models
  • OLLAMA_HOST:ollama 服务监听的网络地址,默认为127.0.0.1,如果想要允许其他电脑访问,设置成 0.0.0.0
  • OLLAMA_PORT:ollama 服务监听的默认端口,默认为11434
  • OLLAMA_ORIGINS:http 请求来源
  • OLLAMA_KEEP_ALIVE:大模型加载到内存中后的存活时间,默认为5m,即5分钟 (如纯数字300代表300秒,0代表处理请求响应后立即卸载模型,任何负数则表示一直存活)
  • OLLAMA_NUM_PARALLEL:请求处理的并发数量
  • OLLAMA_MAX_QUEUE:请求队列长度,默认值为512,超过队列长度的请求会被抛弃
  • OLLAMA_MAX_LOADED_MODELS:最多同时加载到内存中模型的数量,默认为1 (即只能有1个模型在内存中)

更新

默认会自动更新,如果需要手动更新,需要重新下载安装包,重新安装。

核心命令

shell
C:\Users\Administrator>ollama
Usage:
  ollama [flags]
  ollama [command]

Available Commands:
  serve       Start ollama
  create      Create a model from a Modelfile
  show        Show information for a model
  run         Run a model
  stop        Stop a running model
  pull        Pull a model from a registry
  push        Push a model to a registry
  list        List models
  ps          List running models
  cp          Copy a model
  rm          Remove a model
  help        Help about any command

Flags:
  -h, --help      help for ollama
  -v, --version   Show version information

Use "ollama [command] --help" for more information about a command.

以上就是 ollama 可以执行的命令。

列出当前已下载的模型

shell
C:\Users\Administrator>ollama list
NAME               ID              SIZE      MODIFIED
deepseek-r1:32b    38056bbcbb2d    19 GB     11 minutes ago
llama3.1:8b        42182419e950    4.7 GB    3 months ago

查看指定模型的信息

shell
C:\Users\Administrator>ollama show deepseek-r1:32b
  Model
    architecture        qwen2
    parameters          32.8B
    context length      131072
    embedding length    5120
    quantization        Q4_K_M

  Parameters
    stop    "<|begin▁of▁sentence|>"
    stop    "<|end▁of▁sentence|>"
    stop    "<|User|>"
    stop    "<|Assistant|>"

  License
    MIT License
    Copyright (c) 2023 DeepSeek

启动 ollama

shell
ollama serve
2025/01/29 12:07:08 routes.go:1187: INFO server config env="map[CUDA_VISIBLE_DEVICES: GPU_DEVICE_ORDINAL: HIP_VISIBLE_DEVICES: HSA_OVERRIDE_GFX_VERSION: HTTPS_PROXY: HTTP_PROXY: NO_PROXY: OLLAMA_DEBUG:false OLLAMA_FLASH_ATTENTION:false OLLAMA_GPU_OVERHEAD:0 OLLAMA_HOST:http://127.0.0.1:11434 OLLAMA_INTEL_GPU:false OLLAMA_KEEP_ALIVE:5m0s OLLAMA_KV_CACHE_TYPE: OLLAMA_LLM_LIBRARY: OLLAMA_LOAD_TIMEOUT:5m0s OLLAMA_MAX_LOADED_MODELS:0 OLLAMA_MAX_QUEUE:512 OLLAMA_MODELS:D:\\software\\ollama\\models OLLAMA_MULTIUSER_CACHE:false OLLAMA_NOHISTORY:false OLLAMA_NOPRUNE:false OLLAMA_NUM_PARALLEL:0 OLLAMA_ORIGINS:[http://localhost https://localhost http://localhost:* https://localhost:* http://127.0.0.1 https://127.0.0.1 http://127.0.0.1:* https://127.0.0.1:* http://0.0.0.0 https://0.0.0.0 http://0.0.0.0:* https://0.0.0.0:* app://* file://* tauri://* vscode-webview://*] OLLAMA_SCHED_SPREAD:false ROCR_VISIBLE_DEVICES:]"
time=2025-01-29T12:07:08.703+08:00 level=INFO source=images.go:432 msg="total blobs: 10"
time=2025-01-29T12:07:08.704+08:00 level=INFO source=images.go:439 msg="total unused blobs removed: 0"
time=2025-01-29T12:07:08.704+08:00 level=INFO source=routes.go:1238 msg="Listening on 127.0.0.1:11434 (version 0.5.7)"
time=2025-01-29T12:07:08.704+08:00 level=INFO source=routes.go:1267 msg="Dynamic LLM libraries" runners="[cuda_v11_avx cuda_v12_avx rocm_avx cpu cpu_avx cpu_avx2]"
time=2025-01-29T12:07:08.704+08:00 level=INFO source=gpu.go:226 msg="looking for compatible GPUs"
time=2025-01-29T12:07:08.704+08:00 level=INFO source=gpu_windows.go:167 msg=packages count=1
time=2025-01-29T12:07:08.704+08:00 level=INFO source=gpu_windows.go:183 msg="efficiency cores detected" maxEfficiencyClass=1
time=2025-01-29T12:07:08.704+08:00 level=INFO source=gpu_windows.go:214 msg="" package=0 cores=16 efficiency=8 threads=24
time=2025-01-29T12:07:08.821+08:00 level=INFO source=gpu.go:334 msg="detected OS VRAM overhead" id=GPU-d110dd87-4fcf-d306-5c3b-9d0aebf99fe5 library=cuda compute=8.9 driver=12.6 name="NVIDIA GeForce RTX 4090" overhead="757.8 MiB"
time=2025-01-29T12:07:08.822+08:00 level=INFO source=types.go:131 msg="inference compute" id=GPU-d110dd87-4fcf-d306-5c3b-9d0aebf99fe5 library=cuda variant=v12 compute=8.9 driver=12.6 name="NVIDIA GeForce RTX 4090" total="24.0 GiB" available="22.5 GiB"

启动日志的第一行,env 中列出了所有可设置的环境变量。

下载指定模型

shell
PS C:\Users\Administrator> ollama pull deepseek-r1:32b

此处 可以查看 ollama 支持的所有模型,选择一个模型进行模型下载主页,如下所示:

img.png

复制命令,进行 cmd 进行执行,即可下载并运行模型

运行指定模型

shell
PS C:\Users\Administrator> ollama run deepseek-r1:32b
>>>

如果模型没有下载过,则会先下载模型,再运行。

查看正在运行的模型

shell
PS C:\Users\Administrator> ollama ps
NAME               ID              SIZE     PROCESSOR    UNTIL
deepseek-r1:32b    38056bbcbb2d    23 GB    100% GPU     4 minutes from now

文章的最后,如果您觉得本文对您有用,请打赏一杯咖啡!感谢!