安装

默认选项安装即可。

下载模型

在终端窗口输入命令，下载需要的模型。

例如本项目默认使用的大语言模型是qwen3:qwen3:4b-instruct-2507-q4_K_M，嵌入模型是qwen3-embedding:0.6b-q8_0，可通过以下命令下载：

ollama pull qwen3:4b-instruct-2507-q4_K_M
ollama pull qwen3-embedding:0.6b-q8_0

注：MacOS系统M芯片+16G以上内存，或Windows系统30/40系列N卡+12G以上显存，建议使用7b以上模型。24G以上显存可使用更大的量化模型

运行

可直接双击Ollama图标启动服务，也可通过命令行启动：

ollama serve

配置

开启API

Windows系统启动服务前需要先配置系统环境变量，否则访问API服务报403错误：

OLLAMA_HOST=0.0.0.0
OLLAMA_ORIGINS=*

配置方法：右键“我的电脑”->属性->高级系统设置->环境变量->系统变量->新建。在变量名和变量值中分别填入OLLAMA_HOST和0.0.0.0，即完成对OLLAMA_HOST环境变量的配置。其余环境变量同理。

MacOS系统通过以下命令设置环境变量：

launchctl setenv OLLAMA_HOST "0.0.0.0"
launchctl setenv OLLAMA_ORIGINS "*"

启动后默认监听端口：11434

其他常用设置

1. 解决外网访问的问题

OLLAMA_HOST=0.0.0.0

2. 解决Windows系统默认将模型下载到C盘的问题

OLLAMA_MODELS=E:\OllamaModels

3. 设置模型加载到内存中保留2小时

默认情况下，模型在卸载之前会在内存中保留5分钟

OLLAMA_KEEP_ALIVE=2h

4. 修改默认端口

OLLAMA_HOST=0.0.0.0:11434

5. 设置多个用户并发请求

OLLAMA_NUM_PARALLEL=2

6. 设置同时加载多个模型

OLLAMA_MAX_LOADED_MODELS=2

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

安装

下载模型

运行

配置

开启API

其他常用设置

1. 解决外网访问的问题

2. 解决Windows系统默认将模型下载到C盘的问题

3. 设置模型加载到内存中保留2小时

4. 修改默认端口

5. 设置多个用户并发请求

6. 设置同时加载多个模型

FilesExpand file tree

ollama.md

Latest commit

History

ollama.md

File metadata and controls

安装

下载模型

运行

配置

开启API

其他常用设置

1. 解决外网访问的问题

2. 解决Windows系统默认将模型下载到C盘的问题

3. 设置模型加载到内存中保留2小时

4. 修改默认端口

5. 设置多个用户并发请求

6. 设置同时加载多个模型