Humanloop

Name: Humanloop
Price: 付费 CNY
Availability: InStock
Author: Humanloop, Inc.

开发公司 Humanloop, Inc.

地区美国

官网 https://humanloop.com/

Humanloop 是面向产品、工程和领域专家协作的 LLMOps 平台，覆盖 Evaluation、Prompt Management、Observability、Datasets、Logs、Evaluators、Agents 和 API 工作流。官方文档显示 Humanloop 平台已于 2025-09-08 sunset，适合用于历史产品研究、迁移评估和同类平台选型对照。

Humanloop 的核心参数与统计

项目	公开信息
产品定位	企业级 LLM evals platform，覆盖 Evaluation、Prompt Management、Observability
官方入口	https://humanloop.com/
文档入口	https://humanloop.com/docs/
默认文档版本	v5.0
主要能力	Evaluators、Datasets、Logs、Prompts、Agents、Tools、Flows、API/SDK、Monitoring
API 示例域名	https://api.humanloop.com/v5
平台状态	2025-09-08 sunset
账单状态	官方 changelog 显示自 2025-07-30 起停止账单
团队状态	Humanloop 团队已加入 Anthropic
适用形态	Web 控制台、API、Python/TypeScript SDK 与文档化工作流

产品边界：Humanloop 不是基础模型供应商，也不是通用聊天机器人。它的核心位置在 LLM 应用开发与治理层，帮助团队管理 Prompt 文件、数据集、日志、评估器、上线监控和协作流程。由于平台已经 sunset，当前不适合作为新项目直接采购对象，更适合作为 LLMOps 产品形态研究、遗留迁移参考和同类方案对照。

状态含义：Humanloop 的官方首页和文档都把“加入 Anthropic”和“平台 sunset”作为当前事实状态。对历史客户而言，关键问题是数据导出和迁移；对新选型团队而言，关键价值在于理解它曾经把 evals-driven development 与 collaborative development 结合到一个平台内的产品结构。

Humanloop 的用户与市场认可

企业级定位：官网元信息将 Humanloop 描述为“LLM evals platform for enterprises”，文档首页则强调产品团队可用 Humanloop 构建 robust AI features，并通过 Evaluation、Prompt Management 与 Observability 协作。该定位说明它服务的不是单次 Prompt 试验，而是有版本、测试、监控和团队协作要求的企业 AI 功能。

客户与生态信号：官网 case-studies 页面公开展示客户案例入口，其中 Gusto 等客户名称可在页面内容中核验；YC 公司页也将 Humanloop 归入 W20 公司，并记录其面向 LLM 应用开发的工具定位。Humanloop 还公开保留 GitHub、X、LinkedIn、Trust Center 和 Media Kit 入口，说明其曾以开发者与企业双重渠道运营。

市场边界：Humanloop 官方没有公开可核验的活跃客户总数、ARR、续约率、用户量或按行业拆分的采用规模。客户 logo、案例和投资方信息只能说明其曾获得企业和资本市场关注，不能推导为确定商业规模。

Humanloop 的成本优势：把 Prompt 迭代、评测和观测合并成一条反馈链

C 端/个人开发者：Humanloop 的历史产品并非典型个人消费工具。文档强调工程师和产品经理两类入口，API、Prompt 文件、Datasets、Evaluators 与 Logs 更适合已有 LLM 应用的开发流程。平台 sunset 后，个人或小团队不能再按普通 SaaS 新购使用，历史价格与免费额度以官方存档和合同为准。

开发者/API 团队：成本优势主要来自减少“Prompt 存在文档里、评测存在表格里、线上日志存在监控系统里”的切换损耗。Prompts 可以通过 API 调用，Logs 记录每次 Function File 执行的输入、输出、版本和元数据，Datasets 又能从 Logs 沉淀成评测用例；这种闭环降低了定位回归、复现实验和跨角色沟通的隐性成本。

企业/治理场景：Humanloop 的公开页面曾突出 compliance and security、Trust Center、SOC 2 与 HIPAA 标识入口，但企业合同价、SLA、数据保留、私有化和安全条款未在当前公开页面完整披露。平台 sunset 后，采购动作应转为迁移方案和替代平台评估，历史客户的退款、数据导出和合同安排以官方迁移说明与客户沟通为准。

Humanloop 的主要功能

Evaluation：Humanloop 的 Evaluator 是对 LLM 生成 Log 进行判断的函数，可返回 boolean、number、select、multi-select 或 text 等结果。它支持开发阶段的 offline evaluation，也支持生产场景的 online monitoring。
Prompt Management：Prompt 文件保存模板、模型、参数和可用工具；模板、模型、temperature、max tokens、top_p 或 tools 的变更都会产生新版本。这个结构适合团队把 Prompt 从聊天记录变成可版本化、可调用、可评测的工程资产。
Observability 与 Logs：Logs 捕获 Function File 每次执行的 inputs、output、使用的版本和元数据；外部生产系统也可以把日志上报到 Humanloop，用于监控和评测。
Datasets：Datasets 由 Datapoints 组成，Datapoint 可包含 inputs、messages 和 target。Dataset 版本不可变，Evaluation 会绑定具体 Dataset Version，便于追踪某次评测到底使用了哪组测试用例。
Evaluators 来源：Evaluators 支持 Code、AI、Human 三类 judgment 来源。Code 适合成本、token、latency 和 regex 等确定规则；AI 适合语义质量判断；Human 适合高价值或高风险任务的金标准反馈。
Agents 与 Tools：2025 年 5 月 changelog 显示 Humanloop 支持 nested Agents、按 environment 链接 Files 到 Agents、以及在 Prompt template 中调用 linked tools，用于构建更复杂的 RAG 和多步 agentic workflow。
模型与供应商集成：2025 年 5 月更新加入 Claude 4 Sonnet/Opus 支持、AWS Bedrock cross-Region inference 和 Bedrock 上的 DeepSeek R1 支持，说明平台曾以多模型、多供应商接入为重要能力。

Humanloop 的模型与版本演进

Humanloop 的主线节点

Platform Sunset（2025-09-08）：官方文档首页与 2025 年 8 月 changelog 明确写明 Humanloop 平台在 2025-09-08 sunset。该节点之后平台和数据永久不可访问，因此最新状态不是“新功能版本”，而是“服务终止与迁移完成节点”。

Humanloop joins Anthropic（2025-08-13）：Humanloop 官方首页宣布团队加入 Anthropic，并感谢客户、投资者与支持者。changelog 同时说明账单已自 2025-07-30 停止，年度订阅的按比例退款由团队联系客户处理。

May 2025 product updates（2025-05）：5 月 changelog 是可核验的最后一组密集产品能力更新之一，包含 RAG linked template tools、Claude 4 support、AWS Bedrock cross-Region inference、Prompts in code、more intuitive observability、trace logs in review tab、nested Agents 和 DeepSeek R1 via Bedrock。

Humanloop 的文档版本

v5.0 默认文档：官方 llms.txt 显示 Humanloop Docs 有 v5.0 与 v4.0 两个文档版本，v5.0 为 default。v5 文档覆盖 Prompt、Dataset、Evaluator、Log、Agent、Tool 等对象，适合理解 Humanloop 在 sunset 前的产品抽象。

v4.0 历史文档：v4.0 文档保留了旧版本概念和 API 路径，适合历史客户迁移时查证旧项目结构。由于当前平台状态已终止，版本研究应以迁移和兼容性判断为主，而不是新功能接入。

Humanloop 的技术优势

评测对象统一化：Humanloop 把 Prompt、Agent、Tool、Evaluator、Flow 都归入 Function File 执行体系，Logs 捕获每次执行的输入、输出和版本。机制上的好处是评测、监控和回放都围绕同一类执行证据展开；适用场景是多 Prompt、多 Agent 的企业 AI 应用。

在线监控与离线评测共用 Evaluator：同一类 Evaluator 可以用于 production Logs 的 online monitoring，也可以配合 Dataset 做 offline evaluation。机制上，团队不必为上线前测试和上线后监控维护两套完全不同的判断逻辑；效果是质量标准更容易被持续复用。

Prompt 与数据集的版本链路：Prompt 的模板、模型、参数和工具变化会产生新版本，Dataset Version 又以 Datapoints 的内容唯一确定。机制上，每次 Evaluation 都能回溯到具体 Prompt 版本和 Dataset 版本；效果是模型替换、Prompt 修改和测试集调整之间的因果关系更清晰。

UI-first 与 code-first 并存：官方文档说明 Humanloop 同时服务开发者和 subject matter experts。机制上，工程师可以通过 API/SDK/CLI 和本地文件工作流接入，产品经理或领域专家可以在 UI 中创建 Prompt、运行评测和参与反馈；适合需要非技术角色参与 AI 质量验收的团队。

Humanloop 的如何使用

使用路径	官方入口/对象	典型步骤	当前状态
Prompt 管理	Prompt File / Prompt Editor / `/v5/prompts/call`	创建 Prompt -> 配置模板、模型和参数 -> 通过 UI 或 API 调用 -> 记录 Logs -> 基于 Logs 建 Dataset	平台已 sunset，仅可作历史参考
评测工作流	Evaluators + Datasets + Evaluation Runs	创建 Dataset -> 定义 Code/AI/Human Evaluator -> 对不同 Prompt/Agent 版本运行 Evaluation -> 聚合 judgment	平台已 sunset，仅可作迁移与对照参考
生产观测	Logs + Monitoring Evaluators	在外部运行时上报 Logs -> 部署 monitoring Evaluators -> 持续检查 drift、latency、cost 或质量下降	平台已 sunset
迁移导出	Migration Guide	在 sunset 前导出数据；2025-09-08 后平台和数据不可访问	截至当前已过迁移窗口

落地边界：如果是研究 Humanloop 的产品方法，最小路径是从 Prompt、Log、Dataset、Evaluator 四个对象理解其反馈闭环；如果是历史客户迁移，应以导出文件、API 兼容、Prompt 模板、Dataset 测试用例和 Evaluator 规则为核心资产；如果是新项目选型，应选择仍在运营的同类 LLMOps/Evals 平台。

Humanloop 的产品定价

成本层级	公开状态	说明
个人/小团队	未公开可用新购价格	当前页面没有可用于新采购的公开套餐，平台已于 2025-09-08 sunset
开发者/API	历史价格未在当前公开页面完整保留	API/SDK 能力可在文档中核验，但账单已自 2025-07-30 停止
企业/合规	合同与退款以官方客户沟通为准	年度订阅超过 sunset 日期的客户由 Humanloop 团队联系处理 prorated refunds

价格判断：Humanloop 的当前商业状态不是“按月订阅中的 SaaS”，而是“加入 Anthropic 后终止原平台”。因此不应把历史 pricing 页面当成可采购价格表使用。新项目需要把成本分析转向替代平台的订阅、模型调用费、数据迁移费、Evaluator 重写、Prompt 版本迁移和监控重建成本。

Humanloop 的应用场景

Prompt 版本治理：适合需要比较不同模型、模板、参数和 tools 组合的团队。Humanloop 的 Prompt File 把配置与 query-time data 分离，让同一任务的不同版本可以进入评测流程。
LLM 质量评测：适合把 Dataset 当成 AI 应用测试用例库的团队。Datapoints 的 inputs、messages 和 target 能承接真实失败样本、边界样本和标准答案，从而支撑回归测试。
生产可观测与监控：适合已经上线 AI 功能的团队。Logs、Monitoring Evaluators 和 trace 结构能帮助团队持续观察质量漂移、延迟、成本、工具调用和输出合规性。
跨角色协作开发：适合产品经理、工程师和领域专家共同定义质量标准的团队。Human Evaluators 与 UI-first 工作流让非技术专家可以参与评估，而 code-first 路径保留工程自动化。
Agent/RAG 工作流实验：2025 年 5 月 linked template tools 和 nested Agents 更新说明 Humanloop 可支持 Prompt、Tool、Agent 的组合编排，适合历史研究复杂 agentic workflow 的产品设计。

Humanloop 的适用人群

AI 产品团队：需要把 Prompt 迭代、评测和上线监控放在同一反馈链内。前置条件是已经有真实用户任务、失败样本和可定义的质量标准。
LLMOps/平台工程团队：需要为多个业务线统一管理 Logs、Datasets、Evaluators 和 API 接入。该人群更关注版本追踪、监控一致性和迁移成本。
领域专家与产品经理：需要参与 Prompt 质量验收、人工评估和测试集维护，但不希望直接修改代码。Humanloop 的 UI-first 设计曾服务这类协作场景。
历史客户与迁移负责人：需要理解 Humanloop 的 File、Version、Log、Dataset、Evaluator 抽象，把旧资产迁移到仍在运营的平台或内部系统。

不适配边界：Humanloop 当前不适合新建生产项目直接采用；只做一次性 Prompt demo、没有测试集、没有上线监控需求的团队也难以从其完整方法论中获得足够收益。涉及合规、审计和长期数据保留的组织，应优先选择仍提供合同、SLA 和支持的替代方案。

Humanloop 的总结与展望

Humanloop 的历史价值在于较早把 LLM 应用开发从“Prompt 调试”推进到“评测驱动开发 + 协作开发 + 生产可观测”。它的对象模型清晰：Prompt 管配置，Log 管执行证据，Dataset 管测试用例，Evaluator 管质量判断，Evaluation/Monitoring 管发布前后质量闭环。这种结构仍然值得同类 LLMOps 和 AI 治理平台借鉴。

当前限制与不确定项也很明确：平台已经于 2025-09-08 sunset，账单在 2025-07-30 后停止，2025-09-08 后平台和数据不可访问；公开页面没有可执行的新采购价格；历史客户数据、退款和迁移细节取决于官方迁移窗口和客户沟通；团队加入 Anthropic 后，Humanloop 原产品线是否会以新形态进入 Anthropic 产品体系未公开。

落地建议是把 Humanloop 作为方法论和迁移对象处理，而不是新采购对象。历史客户应盘点 Prompt 文件、Dataset 版本、Evaluator 规则、Logs 导出、API 调用路径和权限模型；新选型团队可以用 Humanloop 的闭环结构作为验收框架，对比候选平台是否支持版本化 Prompt、可复现评测、线上监控、人工反馈、API/SDK 接入和企业安全条款。

版本信息

Humanloop Platform Sunset ：官方文档与 2025 年 8 月 changelog 显示，Humanloop 平台在团队加入 Anthropic 后于 2025-09-08 sunset；该日期之后平台和数据永久不可访问。（2025-09-08）
Humanloop joins Anthropic transition ：Humanloop 官方公告宣布团队加入 Anthropic，并说明平台进入迁移与 sunset 阶段；账单已自 2025-07-30 停止。（2025-08-13）
May 2025 product updates ：2025 年 5 月 changelog 公布 RAG linked template tools、Claude 4 support、AWS Bedrock cross-Region inference、Prompts in code、nested Agents 与 observability 更新。（2025-05-22）
Humanloop v5 Docs ：官方文档索引显示 v5.0 为默认文档版本，暂无官方精确发布日期；v5 文档覆盖 Evaluation、Prompt Management、Observability、Agents、Tools、Datasets 和 API。（~2025-08）

用户评价

加载评价中...