下载地址:https://ollama.com/
默认选项安装即可。
在终端窗口输入命令,下载需要的模型。
例如本项目默认使用的大语言模型是qwen3:qwen3:4b-instruct-2507-q4_K_M,嵌入模型是qwen3-embedding:0.6b-q8_0,可通过以下命令下载:
ollama pull qwen3:4b-instruct-2507-q4_K_M
ollama pull qwen3-embedding:0.6b-q8_0
注:MacOS系统M芯片+16G以上内存,或Windows系统30/40系列N卡+12G以上显存,建议使用7b以上模型。24G以上显存可使用更大的量化模型
可直接双击Ollama图标启动服务,也可通过命令行启动:
ollama serve
Windows系统启动服务前需要先配置系统环境变量,否则访问API服务报403错误:
OLLAMA_HOST=0.0.0.0
OLLAMA_ORIGINS=*
配置方法:
右键“我的电脑”->属性->高级系统设置->环境变量->系统变量->新建。
在变量名和变量值中分别填入OLLAMA_HOST和0.0.0.0,即完成对OLLAMA_HOST环境变量的配置。其余环境变量同理。
MacOS系统通过以下命令设置环境变量:
launchctl setenv OLLAMA_HOST "0.0.0.0"
launchctl setenv OLLAMA_ORIGINS "*"
启动后默认监听端口:11434
OLLAMA_HOST=0.0.0.0
OLLAMA_MODELS=E:\OllamaModels
默认情况下,模型在卸载之前会在内存中保留5分钟
OLLAMA_KEEP_ALIVE=2h
OLLAMA_HOST=0.0.0.0:11434
OLLAMA_NUM_PARALLEL=2
OLLAMA_MAX_LOADED_MODELS=2