Ollama 免费

-

Ollama 是开源的本地大模型运行工具,GitHub 获得 173,000+ Star。一行命令即可在 macOS、Windows 或 Linux 上运行 Llama、DeepSeek、Qwen、Gemma、Mistral 等主流AI 开源模型,无需云端、数据完全本地,并提供 OpenAI 兼容 API 接口方便应用集成。

Ollama 产品界面

Ollama — 本地开源大模型运行工具

核心参数与统计

参数 详情
GitHub Stars 173,100+(截至 2026 年 6 月)
GitHub Forks 16,400+
开源协议 MIT License
支持操作系统 macOS、Windows、Linux
支持模型数量 200+(官方模型库持续增加)
最新版本 v0.30.4(2026-06-03)
API 兼容性 OpenAI API 兼容接口
硬件支持 CPU、NVIDIA GPU(CUDA)、AMD GPU(ROCm)、Apple Silicon(Metal)

Ollama 的核心设计理念是「本地运行大模型应该像使用 Docker 管理容器一样简单」:ollama pull 下载模型,ollama run 启动推理,ollama serve 暴露本地 API——三步完成整个流程,开发者无需处理复杂的环境配置和依赖管理。

用户与市场认可

  • GitHub 超 173K Star,是全球下载量最大的本地 LLM 运行工具,Forks 超 16K。
  • 模型库支持超过 200 个主流开源模型,覆盖 Llama、DeepSeek、Qwen、Gemma、Mistral、Phi、MiniMax 等系列。
  • 在开发者社区(Hacker News、Reddit r/LocalLLaMA)长期维持极高关注度,多次登上 GitHub Trending 榜首。
  • 被 LangChain、LlamaIndex、Open WebUI、Dify 等主流 AI 开发框架原生集成,形成庞大生态。
  • 截至 2026 年 6 月,已更新至 v0.30.x 系列,成为私有化 AI 部署的首选工具之一。

成本优势

方案 费用 说明
Ollama 本体 完全免费 开源 MIT 协议,无使用限制
模型下载 完全免费 官方模型库全部免费下载
云端 API(对比) $0.01–$30/百万 Token OpenAI、Claude 等商业 API 的典型范围
本地运行摊销成本 仅硬件折旧 高频使用下边际成本接近零

与使用商业 API 相比,本地运行在高频场景下的成本优势显著:一块 RTX 4090 显卡(约 ¥15,000)运行 70B 参数模型,日均 10,000 次推理的情况下,一年内摊销成本远低于等量 API 调用费用。此外,本地运行无需联网、无 Rate Limit、响应延迟更稳定。

主要功能

  • 一行命令运行模型ollama run llama3.1 即可下载并启动 Llama 3.1,全程自动处理依赖和配置。
  • 200+ 开源模型支持:官方模型库(ollama.com/library)收录 Llama、DeepSeek、Qwen、Gemma、Mistral、Phi、Kimi、GLM 等系列,持续更新最新模型。
  • OpenAI 兼容 APIollama serve 启动本地服务后,提供与 OpenAI API 兼容的接口(http://localhost:11434),任何支持 OpenAI SDK 的应用无需修改代码即可切换至本地模型。
  • 多后端硬件加速:自动检测并利用 NVIDIA CUDA、AMD ROCm 和 Apple Silicon Metal 进行 GPU 加速,在 CPU 上也可运行(速度较慢)。
  • 自定义 Modelfile:类似 Dockerfile 的 Modelfile 语法,支持定制模型的系统提示、上下文长度、采样参数和模型合并,构建个人专属模型配置。
  • 多模态模型支持:支持 LLaVA、Llama 3.2 Vision 等视觉语言模型,可在本地处理图片理解任务。
  • 模型量化支持:提供 Q4、Q5、Q8 等不同量化精度版本,在 RAM 限制下灵活权衡质量与速度。
  • 嵌入模型支持:支持 nomic-embed-text、mxbai-embed-large 等嵌入模型,可在本地构建向量数据库。
  • REST API:除 OpenAI 兼容接口外,还提供原生 Ollama REST API,支持流式输出和详细的生成参数控制。

模型与版本演进

Ollama 版本号采用 v0.x.y 格式,每次更新重点在于:支持更多最新模型、性能优化和 Bug 修复。

里程碑 时间
首个公开版本,支持 macOS + Llama 2 2023-07
Windows 正式支持 2024-06
OpenAI 兼容 API 上线 2024-09
支持 DeepSeek-R1 2025-01
支持 Qwen 3/3.5 系列 2026-04
支持 Kimi-K2.6、GLM-5.1、GPT-oss 2026-06
当前最新 v0.30.4 2026-06-03

技术优势

llama.cpp 内核:Ollama 底层使用 llama.cpp 作为推理引擎,llama.cpp 是目前最广泛使用的本地 LLM 推理库,针对 CPU 和 GPU 混合推理做了深度优化,支持 GGUF 格式模型(量化存储,减少显存占用)。

OpenAI API 兼容层:Ollama 1:1 兼容 OpenAI Chat Completions 和 Embeddings API,这意味着开发者只需将 base_urlhttps://api.openai.com 改为 http://localhost:11434,所有现有代码即可无缝运行在本地模型上——这是 Ollama 生态爆发式增长的关键设计决策。

数据完全本地化:所有推理过程均在本地设备完成,不向任何外部服务器发送数据,满足金融、医疗、法律等对数据隐私有严格要求的场景。

跨平台统一体验:macOS(Apple Silicon + Intel)、Windows(x64)和 Linux 的安装包、CLI 命令和 API 行为完全一致,开发者无需为不同平台维护不同配置。

如何使用

平台 安装方式
macOS 下载 Ollama.app,或 brew install ollama
Windows 下载 OllamaSetup.exe 安装包
Linux curl -fsSL https://ollama.com/install.sh \| sh
Docker docker run -d -v ollama:/root/.ollama -p 11434:11434 ollama/ollama

典型使用步骤

  1. 按平台安装 Ollama(上表)。
  2. 在终端运行 ollama pull llama3.1(下载模型,约 4-8 GB)。
  3. 运行 ollama run llama3.1 进入交互式对话。
  4. 或启动 ollama serve,然后用任意 OpenAI 客户端/SDK 调用 http://localhost:11434

配合 Open WebUI 使用(推荐非命令行用户):

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway ghcr.io/open-webui/open-webui:main

访问 http://localhost:3000 即可获得类 ChatGPT 的可视化界面操作本地模型。

产品定价

Ollama 本体及所有官方模型完全免费,采用 MIT 开源协议,无任何商业限制。

唯一的成本是运行所需的硬件资源:

  • 入门(7B 模型):8 GB RAM 或显存即可运行,如 MacBook Air M2 可流畅运行 Llama 3.2 8B。
  • 进阶(14-32B 模型):需要 16-32 GB RAM/显存,如 Mac Studio M2 Ultra 或 RTX 4090。
  • 旗舰(70B+ 模型):需要 48 GB+ 显存,或多 GPU 配置。

对于企业内网部署,通常在服务器上运行 ollama serve,内网所有设备通过 API 访问,硬件成本远低于长期的商业 API 费用。

应用场景

1. 个人隐私保护场景 律师、医生或处理敏感数据的研究人员,使用 Ollama 在本地运行模型进行文档分析和内容生成,确保数据不离开本地设备,规避云端数据泄露风险。

2. 开发者本地调试与测试 在开发 AI 应用时,使用 Ollama 本地运行模型替代商业 API,消除 API 调用延迟和费用,加速迭代周期;正式上线时再切换到云端 API,代码无需修改。

3. 企业内网私有化部署 在不能访问互联网或对数据出境有严格限制的企业环境中,在内部服务器部署 Ollama,为全公司提供类 ChatGPT 的私有 AI 服务,结合 Open WebUI 等前端工具快速落地。

4. 本地 RAG 知识库系统 结合 nomic-embed-text 等嵌入模型和 Chroma、Qdrant 等本地向量数据库,构建完全离线的企业知识库问答系统,无需依赖任何云服务。

适用人群

  • 开发者:本地开发和测试 AI 应用的标准工具,OpenAI 兼容接口极大降低集成门槛。
  • 对隐私有高要求的专业人士(律师、医生、研究员):本地推理确保数据不离设备。
  • 企业 IT/DevOps 团队:在内网部署私有 AI 服务,满足合规要求同时降低长期成本。
  • AI 爱好者/研究者:便捷尝试各类最新开源模型,对比不同模型效果。
  • 不适配场景:对推理性能要求极高的生产场景(如高并发服务),或设备硬件不足(低于 8 GB RAM)时,本地推理体验会明显受限。

总结与展望

Ollama 通过极简的交互设计和对 OpenAI API 的完全兼容,成功将「在本地运行开源大模型」这一原本门槛较高的操作变成了大众可及的能力,其 173K+ GitHub Star 是对这一价值主张的有力验证。

核心竞争力在于:开源免费、数据完全本地、OpenAI 兼容接口降低迁移成本,以及持续跟进最新开源模型(通常在主流模型发布数天内即可通过 Ollama 运行)。

主要局限:并发推理性能不及专业云端推理服务;超大参数模型(70B+)对硬件要求较高;缺乏企业级管理和监控功能。

后续关注点:更多模型量化技术(如 EXL2、AWQ)的支持、多节点分布式推理、与 MCP 生态的深度集成,以及围绕 Ollama API 的企业管控工具。

版本信息

  • Ollama v0.30.4 :最新稳定版本,支持 Kimi-K2.6、GLM-5.1、MiniMax、GPT-oss、Gemma 4、Qwen 3.5/3-Coder 等新模型,持续优化推理性能与兼容性。
  • Ollama v0.24.0 :重要功能更新,以官方 changelog 为准。
  • Ollama v0.30.0 :主版本迭代,新增多个最新开源模型支持。
  • Ollama 初始开源版 :首个公开版本,支持在 macOS 本地运行 Llama 2,开创「一行命令跑本地 LLM」的交互范式。

用户评价

  • 加载评价中...