Together AI
Together AI 是专为开源 AI 模型设计的 AI 模型训练与部署平台,支持在 200+ 开源模型(含 Llama、Mistral、Qwen 等)上进行无服务器推理、监督微调(SFT)和专用端点部署。Llama 3.1 8B 推理最低 $0.20/百万 Token,是构建 AI 应用的高性价比开源模型云端方案。
Together AI — 开源 AI 模型的无服务器推理与微调云平台
核心参数与统计
| 参数 | 详情 |
|---|---|
| 可用模型数量 | 200+ 开源模型(持续更新) |
| 推理定价 | 从 $0.20/百万 Token(Llama 3.1 8B) |
| 无服务器推理 | 按 Token 用量计费,无闲置成本 |
| 专用端点 | 按 GPU 小时计费,保证吞吐量 |
| 微调服务 | 监督微调(SFT),支持 LoRA 和全参数微调 |
| API 兼容性 | 兼容 OpenAI API 格式,最小化迁移成本 |
| 最大上下文 | 最高 128K Token(旗舰模型) |
| 创始人背景 | 前顶级科技公司工程师 + 苏黎世联邦理工大学教授 |
| 融资情况 | A 轮 $102.5M(2024),估值超 $1B |
| 主要支持模型族 | Llama 3.x、Mistral、Qwen、DeepSeek、Gemma 等 |
Together AI 的核心价值主张是「让开源模型的使用和开发与闭源模型一样便捷」——通过统一的 API 接口、竞争性定价和完整的微调工作流,将运行开源模型的复杂性封装在云服务层,使开发者专注于应用构建而非基础设施管理。
用户与市场认可
Together AI 在 AI 开发者社区中已建立起显著的口碑,特别是在注重数据隐私和成本控制、倾向于使用开源模型的团队中广受好评。相较于 OpenAI/Anthropic 等闭源 API,Together AI 的开源模型 API 在同等质量下通常价格低 50%-80%,对预算敏感的初创公司极具吸引力。
2024 年 A 轮融资后,Together AI 加速了企业客户的拓展,多家知名 AI 初创公司和科技企业采用 Together AI 作为其开源模型推理的主力供应商。在 Llama 2/3 系列模型发布后,Together AI 通常能在第一时间上线新模型 API,成为开发者第一时间体验最新开源模型的主要平台之一,这一「模型更新速度领先」的优势形成了明显的用户黏性。
成本优势
| 计划 | 价格 | 主要功能 | 适合人群 |
|---|---|---|---|
| 无服务器推理(按量) | 从 $0.20/百万 Token | 200+ 模型即用 API,无最低消费 | AI 应用开发者、初创公司 |
| 专用端点 | 按 GPU 小时计费 | 保证吞吐量,低延迟,可自定义 | 生产级高并发应用 |
| 微调服务 | 按训练 Token 计费 | SFT 微调 + 模型存储 + 部署 | 需要定制化模型的企业 |
| 企业计划 | 定制报价 | 私有化选项、专属支持、合规保障 | 大型企业客户 |
以 Llama 3.1 8B 为例:Together AI 定价 $0.20/百万 Token vs OpenAI GPT-3.5 Turbo $0.50/百万 Token(输入),在相似参数规模下成本节省约 60%。对于高流量 AI 应用,每月可节省数千至数万美元的推理成本,ROI 极为显著。
主要功能
- 200+ 开源模型无服务器推理:一行代码即可访问 Llama、Mistral、Qwen、DeepSeek、Gemma、Code Llama 等各类开源模型的推理 API,按使用量计费,无需管理 GPU 基础设施,无闲置成本。
- OpenAI 兼容 API:API 接口格式与 OpenAI SDK 完全兼容,只需更改 base_url 和 model 参数,即可将现有 OpenAI 应用切换至 Together AI 的开源模型,极大降低迁移成本。
- 监督微调(SFT)服务:提供托管式微调服务,上传训练数据(JSONL 格式)即可启动微调任务,支持 LoRA 高效微调和全参数微调,微调完成后可直接部署为专用推理端点。
- 专用推理端点:为需要低延迟和高吞吐量的生产应用提供专用 GPU 实例,保证资源独占,支持自定义并发数和扩缩容策略,适合对推理延迟有严格要求的实时应用场景。
- 长上下文支持:旗舰模型支持最高 128K Token 的上下文窗口,满足长文档摘要、长代码文件分析和多轮深度对话等长上下文场景需求。
- 多模态模型支持:支持视觉语言模型(如 LLaVA、Idefics 等),开发者可通过统一 API 访问图文理解能力,无需单独集成不同的多模态服务。
- Playground(在线测试):提供 Web 界面的模型 Playground,无需编写代码即可测试不同模型的响应效果,支持参数调整(温度、Top-P 等),便于模型选型评估。
- 实时流式输出(Streaming):支持 SSE(Server-Sent Events)格式的流式 Token 输出,提升聊天界面等需要实时显示生成内容的应用用户体验。
模型与版本演进
| 里程碑 | 时间 | 说明 |
|---|---|---|
| Together Computer 创立 | 2022 | Vipul Ved Prakash 和 Ce Zhang 创立 |
| 研究阶段 + 种子轮 | 2022-2023 | 构建推理引擎核心技术,完成种子轮融资 |
| Together AI 平台公开发布 | 2023-06 | 30+ 开源模型推理 API 正式上线,OpenAI 兼容格式 |
| Llama 2 第一时间支持 | 2023-07 | Meta 发布 Llama 2 当天即上线 Together AI 平台 |
| 微调服务发布 | 2023-10 | 托管式 SFT 微调服务上线,支持自定义模型部署 |
| Series A $102.5M | 2024-03 | 完成 A 轮融资,估值超 $1B,用户增长加速 |
| Inference Engine v2 + 长上下文 | ~2024-12 | 推理性能大幅提升,128K 长上下文支持发布 |
技术优势
Together Inference Engine 的高性能推理优化:Together AI 自研推理引擎针对大语言模型的推理特性进行了深度优化,包括 FlashAttention 集成、连续批处理(Continuous Batching)和高效 KV Cache 管理,使得相同 GPU 硬件上的推理吞吐量显著高于原始 HuggingFace Transformers 部署,将这一性能优势以服务形式提供给所有用户。
模型多样性与更新速度:Together AI 与主要开源模型社区保持紧密合作,通常在新模型发布当日或次日即完成上线,200+ 模型覆盖了语言生成、代码生成、对话、嵌入向量、图文理解等各类任务类型,是开源模型生态中覆盖最全面的商业推理平台之一。
OpenAI API 格式兼容性降低迁移摩擦:从 OpenAI API 迁移至 Together AI 通常只需修改 2 行代码(base_url 和 model 名称),完全兼容 OpenAI Python SDK 和其他 OpenAI 兼容客户端,大量已使用 OpenAI API 构建的应用可以最低成本实现向开源模型的切换或 A/B 测试。
微调与推理的一体化工作流:Together AI 将数据上传、微调任务管理、模型评估和部署集成在同一平台,形成「数据 → 微调 → 部署 → 调用」的完整闭环,相较于在 HuggingFace + 自管 GPU 集群上手动完成整个流程,极大降低了定制模型的技术门槛和运营成本。
如何使用
| 入口 | 说明 |
|---|---|
| API 访问 | 访问 https://www.together.ai 注册账号,获取 API Key |
| Playground | 在 https://api.together.xyz/playground 无代码测试各模型 |
| Python SDK | 使用 openai Python 包,设置 base_url 为 Together AI 端点 |
| 微调 Dashboard | 在 Web Console 上传数据集、启动微调任务、管理微调模型 |
| 专用端点管理 | 在 Console 中创建和管理专用 GPU 推理端点 |
典型使用步骤(快速接入 Llama 3.1 推理):
- 访问 https://www.together.ai 注册账号,新用户获得免费试用额度。
- 在 Dashboard 创建 API Key。
- 安装 OpenAI Python SDK:
pip install openai。 - 初始化客户端:
client = OpenAI(api_key="your_key", base_url="https://api.together.xyz/v1")。 - 调用模型:
response = client.chat.completions.create(model="meta-llama/Llama-3.1-8B-Instruct-Turbo", ...)。 - 如需微调,在 Console 上传 JSONL 格式训练数据,选择基础模型和超参数,启动微调任务。
产品定价
Together AI 采用按量计费的无服务器定价模式:
- 无服务器推理:按每百万 Token 计费,从 $0.20/百万 Token(Llama 3.1 8B Instruct Turbo)到更大模型的更高价格,主力模型价格大幅低于 OpenAI/Anthropic 同档位闭源模型。
- 专用端点:按 GPU 小时计费,价格根据 GPU 型号(A10G、A100、H100 等)和数量动态定价,为需要稳定低延迟的生产应用提供资源保障。
- 微调服务:按训练 Token 数量计费,具体单价根据模型大小和微调方式(LoRA/全量)有所不同,模型存储和专用部署端点另行计费。
- 免费试用额度:新注册用户获得一定免费推理额度,用于评估平台和进行初期开发测试,无信用卡要求即可注册体验。
应用场景
-
AI 应用开发的开源模型后端:初创公司和独立开发者将 Together AI 作为 AI 应用的开源模型推理后端,利用 OpenAI 兼容 API 以最低迁移成本接入 Llama、Mistral 等高性价比开源模型,同等质量下将推理成本降低 50-80%。
-
企业私有化模型定制与部署:企业使用 Together AI 的微调服务,基于开源基础模型训练企业专属模型,将行业知识和业务规则注入模型,最终部署为专用推理端点,在数据安全和成本之间取得最优平衡。
-
多模型 A/B 测试与评估:AI 团队利用 Together AI 统一平台同时测试多个开源模型的性能、成本和响应质量,快速完成模型选型评估,节省自行部署多模型测试环境的时间和成本。
-
研究和实验的快速原型验证:AI 研究人员和学生通过 Together AI 快速访问最新开源模型进行实验,无需申请 GPU 集群资源,按使用量付费的模式使小规模实验成本极低,加速研究迭代速度。
-
长上下文分析应用:利用 Together AI 提供的 128K 上下文窗口,构建长文档摘要、代码库分析、法律合同审阅等需要处理大量文本的 AI 应用,开源长上下文模型相比闭源 API 成本更具竞争力。
适用人群
- AI 应用开发者和初创公司:寻找性价比高的开源模型 API 来构建 AI 产品,对 OpenAI/Anthropic 定价敏感,需要灵活选择不同模型的团队。
- 企业 AI 工程团队:需要在成本和性能之间取得平衡,希望在云端使用和定制开源模型而不自行管理 GPU 基础设施的企业技术团队。
- AI 研究人员:需要快速访问最新开源模型进行实验和评估,按量付费降低研究成本的学术和工业研究者。
- 从 OpenAI 迁移的开发者:已有 OpenAI API 应用,希望通过切换到开源模型降低推理成本,或因数据隐私考虑需要使用可控开源模型的开发者。
- 不适配场景:需要 OpenAI/Anthropic 专有模型(如 GPT-4o、Claude 3.5 Sonnet)特定能力的应用(Together AI 不提供闭源模型);需要本地完全离线运行模型的场景(应考虑 Ollama 等本地部署方案);对延迟要求极高(<50ms)且流量较小的实时应用(专用端点成本可能超出预期)。
总结与展望
Together AI 在开源 AI 模型商业化浪潮中找到了清晰的市场定位:作为连接开源模型社区与商业应用开发者的关键基础设施层,提供「闭源 API 的便捷性 + 开源模型的成本优势 + 定制化微调能力」的组合价值。1 亿美元 A 轮融资的完成验证了这一商业模式的市场认可,在开源 AI 生态系统持续壮大的背景下,Together AI 的市场空间将随着 Llama、Mistral 等开源模型能力的不断提升而同步扩大。
当前局限:受限于基础设施成本,在超高并发场景下的性价比相对于自托管方案不占优势;模型微调功能相较于 Google Vertex AI 等大厂平台在工具链完整性上仍有差距;企业级安全合规功能(如私有化部署、VPC 集成)正在完善中。
后续关注点:推理引擎性能的持续优化(追求单位成本最高吞吐量)、企业级安全和合规功能扩展、与云服务商的深度集成、以及在混合专家架构(MoE)等新型模型架构上的推理优化能力,将是 Together AI 保持竞争优势的关键。
版本信息
- Series A 融资 / 微调服务正式版 :完成 1.025 亿美元 A 轮融资,估值超过 10 亿美元;同期推出生产级监督微调(SFT)服务,支持开发者基于 Llama、Mistral 等开源模型进行自定义微调,并一键部署专用推理端点,形成「微调 + 推理」一站式开源模型云端工作流。
- :Together AI 平台正式向公众开放,提供 30+ 开源模型的无服务器推理 API,以 OpenAI 兼容的 API 格式降低迁移门槛,成为首批大规模商业化开源模型推理服务平台之一,在 AI 开发社区引发广泛关注。
- Together Inference Engine v2 + 长上下文支持 :发布 Together Inference Engine v2,大幅提升推理吞吐量和延迟性能;同期为 Llama 3.1 405B 等旗舰模型添加最高 128K Token 长上下文支持,满足长文档分析和多轮对话场景需求;新增对 Llama 3.3 70B、Qwen2.5 系列等最新开源模型的第一时间支持,保持模型库的持续领先更新。
用户评价