Humanloop

-

Humanloop 是面向产品、工程和领域专家协作的 LLMOps 平台,覆盖 Evaluation、Prompt Management、Observability、Datasets、Logs、Evaluators、Agents 和 API 工作流。官方文档显示 Humanloop 平台已于 2025-09-08 sunset,适合用于历史产品研究、迁移评估和同类平台选型对照。

Humanloop 产品界面

Humanloop 的核心参数与统计

项目 公开信息
产品定位 企业级 LLM evals platform,覆盖 Evaluation、Prompt Management、Observability
官方入口 https://humanloop.com/
文档入口 https://humanloop.com/docs/
默认文档版本 v5.0
主要能力 Evaluators、Datasets、Logs、Prompts、Agents、Tools、Flows、API/SDK、Monitoring
API 示例域名 https://api.humanloop.com/v5
平台状态 2025-09-08 sunset
账单状态 官方 changelog 显示自 2025-07-30 起停止账单
团队状态 Humanloop 团队已加入 Anthropic
适用形态 Web 控制台、API、Python/TypeScript SDK 与文档化工作流

产品边界:Humanloop 不是基础模型供应商,也不是通用聊天机器人。它的核心位置在 LLM 应用开发与治理层,帮助团队管理 Prompt 文件、数据集、日志、评估器、上线监控和协作流程。由于平台已经 sunset,当前不适合作为新项目直接采购对象,更适合作为 LLMOps 产品形态研究、遗留迁移参考和同类方案对照。

状态含义:Humanloop 的官方首页和文档都把“加入 Anthropic”和“平台 sunset”作为当前事实状态。对历史客户而言,关键问题是数据导出和迁移;对新选型团队而言,关键价值在于理解它曾经把 evals-driven development 与 collaborative development 结合到一个平台内的产品结构。

Humanloop 的用户与市场认可

企业级定位:官网元信息将 Humanloop 描述为“LLM evals platform for enterprises”,文档首页则强调产品团队可用 Humanloop 构建 robust AI features,并通过 Evaluation、Prompt Management 与 Observability 协作。该定位说明它服务的不是单次 Prompt 试验,而是有版本、测试、监控和团队协作要求的企业 AI 功能。

客户与生态信号:官网 case-studies 页面公开展示客户案例入口,其中 Gusto 等客户名称可在页面内容中核验;YC 公司页也将 Humanloop 归入 W20 公司,并记录其面向 LLM 应用开发的工具定位。Humanloop 还公开保留 GitHub、X、LinkedIn、Trust Center 和 Media Kit 入口,说明其曾以开发者与企业双重渠道运营。

市场边界:Humanloop 官方没有公开可核验的活跃客户总数、ARR、续约率、用户量或按行业拆分的采用规模。客户 logo、案例和投资方信息只能说明其曾获得企业和资本市场关注,不能推导为确定商业规模。

Humanloop 的成本优势:把 Prompt 迭代、评测和观测合并成一条反馈链

C 端/个人开发者:Humanloop 的历史产品并非典型个人消费工具。文档强调工程师和产品经理两类入口,API、Prompt 文件、Datasets、Evaluators 与 Logs 更适合已有 LLM 应用的开发流程。平台 sunset 后,个人或小团队不能再按普通 SaaS 新购使用,历史价格与免费额度以官方存档和合同为准。

开发者/API 团队:成本优势主要来自减少“Prompt 存在文档里、评测存在表格里、线上日志存在监控系统里”的切换损耗。Prompts 可以通过 API 调用,Logs 记录每次 Function File 执行的输入、输出、版本和元数据,Datasets 又能从 Logs 沉淀成评测用例;这种闭环降低了定位回归、复现实验和跨角色沟通的隐性成本。

企业/治理场景:Humanloop 的公开页面曾突出 compliance and security、Trust Center、SOC 2 与 HIPAA 标识入口,但企业合同价、SLA、数据保留、私有化和安全条款未在当前公开页面完整披露。平台 sunset 后,采购动作应转为迁移方案和替代平台评估,历史客户的退款、数据导出和合同安排以官方迁移说明与客户沟通为准。

Humanloop 的主要功能

  • Evaluation:Humanloop 的 Evaluator 是对 LLM 生成 Log 进行判断的函数,可返回 boolean、number、select、multi-select 或 text 等结果。它支持开发阶段的 offline evaluation,也支持生产场景的 online monitoring。
  • Prompt Management:Prompt 文件保存模板、模型、参数和可用工具;模板、模型、temperature、max tokens、top_p 或 tools 的变更都会产生新版本。这个结构适合团队把 Prompt 从聊天记录变成可版本化、可调用、可评测的工程资产。
  • Observability 与 Logs:Logs 捕获 Function File 每次执行的 inputs、output、使用的版本和元数据;外部生产系统也可以把日志上报到 Humanloop,用于监控和评测。
  • Datasets:Datasets 由 Datapoints 组成,Datapoint 可包含 inputs、messages 和 target。Dataset 版本不可变,Evaluation 会绑定具体 Dataset Version,便于追踪某次评测到底使用了哪组测试用例。
  • Evaluators 来源:Evaluators 支持 Code、AI、Human 三类 judgment 来源。Code 适合成本、token、latency 和 regex 等确定规则;AI 适合语义质量判断;Human 适合高价值或高风险任务的金标准反馈。
  • Agents 与 Tools:2025 年 5 月 changelog 显示 Humanloop 支持 nested Agents、按 environment 链接 Files 到 Agents、以及在 Prompt template 中调用 linked tools,用于构建更复杂的 RAG 和多步 agentic workflow。
  • 模型与供应商集成:2025 年 5 月更新加入 Claude 4 Sonnet/Opus 支持、AWS Bedrock cross-Region inference 和 Bedrock 上的 DeepSeek R1 支持,说明平台曾以多模型、多供应商接入为重要能力。

Humanloop 的模型与版本演进

Humanloop 的主线节点

Platform Sunset(2025-09-08):官方文档首页与 2025 年 8 月 changelog 明确写明 Humanloop 平台在 2025-09-08 sunset。该节点之后平台和数据永久不可访问,因此最新状态不是“新功能版本”,而是“服务终止与迁移完成节点”。

Humanloop joins Anthropic(2025-08-13):Humanloop 官方首页宣布团队加入 Anthropic,并感谢客户、投资者与支持者。changelog 同时说明账单已自 2025-07-30 停止,年度订阅的按比例退款由团队联系客户处理。

May 2025 product updates(2025-05):5 月 changelog 是可核验的最后一组密集产品能力更新之一,包含 RAG linked template tools、Claude 4 support、AWS Bedrock cross-Region inference、Prompts in code、more intuitive observability、trace logs in review tab、nested Agents 和 DeepSeek R1 via Bedrock。

Humanloop 的文档版本

v5.0 默认文档:官方 llms.txt 显示 Humanloop Docs 有 v5.0 与 v4.0 两个文档版本,v5.0 为 default。v5 文档覆盖 Prompt、Dataset、Evaluator、Log、Agent、Tool 等对象,适合理解 Humanloop 在 sunset 前的产品抽象。

v4.0 历史文档:v4.0 文档保留了旧版本概念和 API 路径,适合历史客户迁移时查证旧项目结构。由于当前平台状态已终止,版本研究应以迁移和兼容性判断为主,而不是新功能接入。

Humanloop 的技术优势

评测对象统一化:Humanloop 把 Prompt、Agent、Tool、Evaluator、Flow 都归入 Function File 执行体系,Logs 捕获每次执行的输入、输出和版本。机制上的好处是评测、监控和回放都围绕同一类执行证据展开;适用场景是多 Prompt、多 Agent 的企业 AI 应用。

在线监控与离线评测共用 Evaluator:同一类 Evaluator 可以用于 production Logs 的 online monitoring,也可以配合 Dataset 做 offline evaluation。机制上,团队不必为上线前测试和上线后监控维护两套完全不同的判断逻辑;效果是质量标准更容易被持续复用。

Prompt 与数据集的版本链路:Prompt 的模板、模型、参数和工具变化会产生新版本,Dataset Version 又以 Datapoints 的内容唯一确定。机制上,每次 Evaluation 都能回溯到具体 Prompt 版本和 Dataset 版本;效果是模型替换、Prompt 修改和测试集调整之间的因果关系更清晰。

UI-first 与 code-first 并存:官方文档说明 Humanloop 同时服务开发者和 subject matter experts。机制上,工程师可以通过 API/SDK/CLI 和本地文件工作流接入,产品经理或领域专家可以在 UI 中创建 Prompt、运行评测和参与反馈;适合需要非技术角色参与 AI 质量验收的团队。

Humanloop 的如何使用

使用路径 官方入口/对象 典型步骤 当前状态
Prompt 管理 Prompt File / Prompt Editor / /v5/prompts/call 创建 Prompt -> 配置模板、模型和参数 -> 通过 UI 或 API 调用 -> 记录 Logs -> 基于 Logs 建 Dataset 平台已 sunset,仅可作历史参考
评测工作流 Evaluators + Datasets + Evaluation Runs 创建 Dataset -> 定义 Code/AI/Human Evaluator -> 对不同 Prompt/Agent 版本运行 Evaluation -> 聚合 judgment 平台已 sunset,仅可作迁移与对照参考
生产观测 Logs + Monitoring Evaluators 在外部运行时上报 Logs -> 部署 monitoring Evaluators -> 持续检查 drift、latency、cost 或质量下降 平台已 sunset
迁移导出 Migration Guide 在 sunset 前导出数据;2025-09-08 后平台和数据不可访问 截至当前已过迁移窗口

落地边界:如果是研究 Humanloop 的产品方法,最小路径是从 Prompt、Log、Dataset、Evaluator 四个对象理解其反馈闭环;如果是历史客户迁移,应以导出文件、API 兼容、Prompt 模板、Dataset 测试用例和 Evaluator 规则为核心资产;如果是新项目选型,应选择仍在运营的同类 LLMOps/Evals 平台。

Humanloop 的产品定价

成本层级 公开状态 说明
个人/小团队 未公开可用新购价格 当前页面没有可用于新采购的公开套餐,平台已于 2025-09-08 sunset
开发者/API 历史价格未在当前公开页面完整保留 API/SDK 能力可在文档中核验,但账单已自 2025-07-30 停止
企业/合规 合同与退款以官方客户沟通为准 年度订阅超过 sunset 日期的客户由 Humanloop 团队联系处理 prorated refunds

价格判断:Humanloop 的当前商业状态不是“按月订阅中的 SaaS”,而是“加入 Anthropic 后终止原平台”。因此不应把历史 pricing 页面当成可采购价格表使用。新项目需要把成本分析转向替代平台的订阅、模型调用费、数据迁移费、Evaluator 重写、Prompt 版本迁移和监控重建成本。

Humanloop 的应用场景

  • Prompt 版本治理:适合需要比较不同模型、模板、参数和 tools 组合的团队。Humanloop 的 Prompt File 把配置与 query-time data 分离,让同一任务的不同版本可以进入评测流程。
  • LLM 质量评测:适合把 Dataset 当成 AI 应用测试用例库的团队。Datapoints 的 inputs、messages 和 target 能承接真实失败样本、边界样本和标准答案,从而支撑回归测试。
  • 生产可观测与监控:适合已经上线 AI 功能的团队。Logs、Monitoring Evaluators 和 trace 结构能帮助团队持续观察质量漂移、延迟、成本、工具调用和输出合规性。
  • 跨角色协作开发:适合产品经理、工程师和领域专家共同定义质量标准的团队。Human Evaluators 与 UI-first 工作流让非技术专家可以参与评估,而 code-first 路径保留工程自动化。
  • Agent/RAG 工作流实验:2025 年 5 月 linked template tools 和 nested Agents 更新说明 Humanloop 可支持 Prompt、Tool、Agent 的组合编排,适合历史研究复杂 agentic workflow 的产品设计。

Humanloop 的适用人群

  • AI 产品团队:需要把 Prompt 迭代、评测和上线监控放在同一反馈链内。前置条件是已经有真实用户任务、失败样本和可定义的质量标准。
  • LLMOps/平台工程团队:需要为多个业务线统一管理 Logs、Datasets、Evaluators 和 API 接入。该人群更关注版本追踪、监控一致性和迁移成本。
  • 领域专家与产品经理:需要参与 Prompt 质量验收、人工评估和测试集维护,但不希望直接修改代码。Humanloop 的 UI-first 设计曾服务这类协作场景。
  • 历史客户与迁移负责人:需要理解 Humanloop 的 File、Version、Log、Dataset、Evaluator 抽象,把旧资产迁移到仍在运营的平台或内部系统。

不适配边界:Humanloop 当前不适合新建生产项目直接采用;只做一次性 Prompt demo、没有测试集、没有上线监控需求的团队也难以从其完整方法论中获得足够收益。涉及合规、审计和长期数据保留的组织,应优先选择仍提供合同、SLA 和支持的替代方案。

Humanloop 的总结与展望

Humanloop 的历史价值在于较早把 LLM 应用开发从“Prompt 调试”推进到“评测驱动开发 + 协作开发 + 生产可观测”。它的对象模型清晰:Prompt 管配置,Log 管执行证据,Dataset 管测试用例,Evaluator 管质量判断,Evaluation/Monitoring 管发布前后质量闭环。这种结构仍然值得同类 LLMOps 和 AI 治理平台借鉴。

当前限制与不确定项也很明确:平台已经于 2025-09-08 sunset,账单在 2025-07-30 后停止,2025-09-08 后平台和数据不可访问;公开页面没有可执行的新采购价格;历史客户数据、退款和迁移细节取决于官方迁移窗口和客户沟通;团队加入 Anthropic 后,Humanloop 原产品线是否会以新形态进入 Anthropic 产品体系未公开。

落地建议是把 Humanloop 作为方法论和迁移对象处理,而不是新采购对象。历史客户应盘点 Prompt 文件、Dataset 版本、Evaluator 规则、Logs 导出、API 调用路径和权限模型;新选型团队可以用 Humanloop 的闭环结构作为验收框架,对比候选平台是否支持版本化 Prompt、可复现评测、线上监控、人工反馈、API/SDK 接入和企业安全条款。

版本信息

  • Humanloop Platform Sunset :官方文档与 2025 年 8 月 changelog 显示,Humanloop 平台在团队加入 Anthropic 后于 2025-09-08 sunset;该日期之后平台和数据永久不可访问。
  • Humanloop joins Anthropic transition :Humanloop 官方公告宣布团队加入 Anthropic,并说明平台进入迁移与 sunset 阶段;账单已自 2025-07-30 停止。
  • May 2025 product updates :2025 年 5 月 changelog 公布 RAG linked template tools、Claude 4 support、AWS Bedrock cross-Region inference、Prompts in code、nested Agents 与 observability 更新。
  • Humanloop v5 Docs :官方文档索引显示 v5.0 为默认文档版本,暂无官方精确发布日期;v5 文档覆盖 Evaluation、Prompt Management、Observability、Agents、Tools、Datasets 和 API。

用户评价

  • 加载评价中...