Ollama
免费
Ollama 是开源的本地大模型运行工具,GitHub 获得 173,000+ Star。一行命令即可在 macOS、Windows 或 Linux 上运行 Llama、DeepSeek、Qwen、Gemma、Mistral 等主流AI 开源模型,无需云端、数据完全本地,并提供 OpenAI 兼容 API 接口方便应用集成。
Ollama — 本地开源大模型运行工具
核心参数与统计
| 参数 | 详情 |
|---|---|
| GitHub Stars | 173,100+(截至 2026 年 6 月) |
| GitHub Forks | 16,400+ |
| 开源协议 | MIT License |
| 支持操作系统 | macOS、Windows、Linux |
| 支持模型数量 | 200+(官方模型库持续增加) |
| 最新版本 | v0.30.4(2026-06-03) |
| API 兼容性 | OpenAI API 兼容接口 |
| 硬件支持 | CPU、NVIDIA GPU(CUDA)、AMD GPU(ROCm)、Apple Silicon(Metal) |
Ollama 的核心设计理念是「本地运行大模型应该像使用 Docker 管理容器一样简单」:ollama pull 下载模型,ollama run 启动推理,ollama serve 暴露本地 API——三步完成整个流程,开发者无需处理复杂的环境配置和依赖管理。
用户与市场认可
- GitHub 超 173K Star,是全球下载量最大的本地 LLM 运行工具,Forks 超 16K。
- 模型库支持超过 200 个主流开源模型,覆盖 Llama、DeepSeek、Qwen、Gemma、Mistral、Phi、MiniMax 等系列。
- 在开发者社区(Hacker News、Reddit r/LocalLLaMA)长期维持极高关注度,多次登上 GitHub Trending 榜首。
- 被 LangChain、LlamaIndex、Open WebUI、Dify 等主流 AI 开发框架原生集成,形成庞大生态。
- 截至 2026 年 6 月,已更新至 v0.30.x 系列,成为私有化 AI 部署的首选工具之一。
成本优势
| 方案 | 费用 | 说明 |
|---|---|---|
| Ollama 本体 | 完全免费 | 开源 MIT 协议,无使用限制 |
| 模型下载 | 完全免费 | 官方模型库全部免费下载 |
| 云端 API(对比) | $0.01–$30/百万 Token | OpenAI、Claude 等商业 API 的典型范围 |
| 本地运行摊销成本 | 仅硬件折旧 | 高频使用下边际成本接近零 |
与使用商业 API 相比,本地运行在高频场景下的成本优势显著:一块 RTX 4090 显卡(约 ¥15,000)运行 70B 参数模型,日均 10,000 次推理的情况下,一年内摊销成本远低于等量 API 调用费用。此外,本地运行无需联网、无 Rate Limit、响应延迟更稳定。
主要功能
- 一行命令运行模型:
ollama run llama3.1即可下载并启动 Llama 3.1,全程自动处理依赖和配置。 - 200+ 开源模型支持:官方模型库(ollama.com/library)收录 Llama、DeepSeek、Qwen、Gemma、Mistral、Phi、Kimi、GLM 等系列,持续更新最新模型。
- OpenAI 兼容 API:
ollama serve启动本地服务后,提供与 OpenAI API 兼容的接口(http://localhost:11434),任何支持 OpenAI SDK 的应用无需修改代码即可切换至本地模型。 - 多后端硬件加速:自动检测并利用 NVIDIA CUDA、AMD ROCm 和 Apple Silicon Metal 进行 GPU 加速,在 CPU 上也可运行(速度较慢)。
- 自定义 Modelfile:类似 Dockerfile 的 Modelfile 语法,支持定制模型的系统提示、上下文长度、采样参数和模型合并,构建个人专属模型配置。
- 多模态模型支持:支持 LLaVA、Llama 3.2 Vision 等视觉语言模型,可在本地处理图片理解任务。
- 模型量化支持:提供 Q4、Q5、Q8 等不同量化精度版本,在 RAM 限制下灵活权衡质量与速度。
- 嵌入模型支持:支持 nomic-embed-text、mxbai-embed-large 等嵌入模型,可在本地构建向量数据库。
- REST API:除 OpenAI 兼容接口外,还提供原生 Ollama REST API,支持流式输出和详细的生成参数控制。
模型与版本演进
Ollama 版本号采用 v0.x.y 格式,每次更新重点在于:支持更多最新模型、性能优化和 Bug 修复。
| 里程碑 | 时间 |
|---|---|
| 首个公开版本,支持 macOS + Llama 2 | 2023-07 |
| Windows 正式支持 | 2024-06 |
| OpenAI 兼容 API 上线 | 2024-09 |
| 支持 DeepSeek-R1 | 2025-01 |
| 支持 Qwen 3/3.5 系列 | 2026-04 |
| 支持 Kimi-K2.6、GLM-5.1、GPT-oss | 2026-06 |
| 当前最新 v0.30.4 | 2026-06-03 |
技术优势
llama.cpp 内核:Ollama 底层使用 llama.cpp 作为推理引擎,llama.cpp 是目前最广泛使用的本地 LLM 推理库,针对 CPU 和 GPU 混合推理做了深度优化,支持 GGUF 格式模型(量化存储,减少显存占用)。
OpenAI API 兼容层:Ollama 1:1 兼容 OpenAI Chat Completions 和 Embeddings API,这意味着开发者只需将 base_url 从 https://api.openai.com 改为 http://localhost:11434,所有现有代码即可无缝运行在本地模型上——这是 Ollama 生态爆发式增长的关键设计决策。
数据完全本地化:所有推理过程均在本地设备完成,不向任何外部服务器发送数据,满足金融、医疗、法律等对数据隐私有严格要求的场景。
跨平台统一体验:macOS(Apple Silicon + Intel)、Windows(x64)和 Linux 的安装包、CLI 命令和 API 行为完全一致,开发者无需为不同平台维护不同配置。
如何使用
| 平台 | 安装方式 |
|---|---|
| macOS | 下载 Ollama.app,或 brew install ollama |
| Windows | 下载 OllamaSetup.exe 安装包 |
| Linux | curl -fsSL https://ollama.com/install.sh \| sh |
| Docker | docker run -d -v ollama:/root/.ollama -p 11434:11434 ollama/ollama |
典型使用步骤:
- 按平台安装 Ollama(上表)。
- 在终端运行
ollama pull llama3.1(下载模型,约 4-8 GB)。 - 运行
ollama run llama3.1进入交互式对话。 - 或启动
ollama serve,然后用任意 OpenAI 客户端/SDK 调用http://localhost:11434。
配合 Open WebUI 使用(推荐非命令行用户):
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway ghcr.io/open-webui/open-webui:main
访问 http://localhost:3000 即可获得类 ChatGPT 的可视化界面操作本地模型。
产品定价
Ollama 本体及所有官方模型完全免费,采用 MIT 开源协议,无任何商业限制。
唯一的成本是运行所需的硬件资源:
- 入门(7B 模型):8 GB RAM 或显存即可运行,如 MacBook Air M2 可流畅运行 Llama 3.2 8B。
- 进阶(14-32B 模型):需要 16-32 GB RAM/显存,如 Mac Studio M2 Ultra 或 RTX 4090。
- 旗舰(70B+ 模型):需要 48 GB+ 显存,或多 GPU 配置。
对于企业内网部署,通常在服务器上运行 ollama serve,内网所有设备通过 API 访问,硬件成本远低于长期的商业 API 费用。
应用场景
1. 个人隐私保护场景 律师、医生或处理敏感数据的研究人员,使用 Ollama 在本地运行模型进行文档分析和内容生成,确保数据不离开本地设备,规避云端数据泄露风险。
2. 开发者本地调试与测试 在开发 AI 应用时,使用 Ollama 本地运行模型替代商业 API,消除 API 调用延迟和费用,加速迭代周期;正式上线时再切换到云端 API,代码无需修改。
3. 企业内网私有化部署 在不能访问互联网或对数据出境有严格限制的企业环境中,在内部服务器部署 Ollama,为全公司提供类 ChatGPT 的私有 AI 服务,结合 Open WebUI 等前端工具快速落地。
4. 本地 RAG 知识库系统 结合 nomic-embed-text 等嵌入模型和 Chroma、Qdrant 等本地向量数据库,构建完全离线的企业知识库问答系统,无需依赖任何云服务。
适用人群
- 开发者:本地开发和测试 AI 应用的标准工具,OpenAI 兼容接口极大降低集成门槛。
- 对隐私有高要求的专业人士(律师、医生、研究员):本地推理确保数据不离设备。
- 企业 IT/DevOps 团队:在内网部署私有 AI 服务,满足合规要求同时降低长期成本。
- AI 爱好者/研究者:便捷尝试各类最新开源模型,对比不同模型效果。
- 不适配场景:对推理性能要求极高的生产场景(如高并发服务),或设备硬件不足(低于 8 GB RAM)时,本地推理体验会明显受限。
总结与展望
Ollama 通过极简的交互设计和对 OpenAI API 的完全兼容,成功将「在本地运行开源大模型」这一原本门槛较高的操作变成了大众可及的能力,其 173K+ GitHub Star 是对这一价值主张的有力验证。
核心竞争力在于:开源免费、数据完全本地、OpenAI 兼容接口降低迁移成本,以及持续跟进最新开源模型(通常在主流模型发布数天内即可通过 Ollama 运行)。
主要局限:并发推理性能不及专业云端推理服务;超大参数模型(70B+)对硬件要求较高;缺乏企业级管理和监控功能。
后续关注点:更多模型量化技术(如 EXL2、AWQ)的支持、多节点分布式推理、与 MCP 生态的深度集成,以及围绕 Ollama API 的企业管控工具。
版本信息
- Ollama v0.30.4 :最新稳定版本,支持 Kimi-K2.6、GLM-5.1、MiniMax、GPT-oss、Gemma 4、Qwen 3.5/3-Coder 等新模型,持续优化推理性能与兼容性。
- Ollama v0.24.0 :重要功能更新,以官方 changelog 为准。
- Ollama v0.30.0 :主版本迭代,新增多个最新开源模型支持。
- Ollama 初始开源版 :首个公开版本,支持在 macOS 本地运行 Llama 2,开创「一行命令跑本地 LLM」的交互范式。
用户评价