Calmo 免费

-

Calmo 是一款面向 AI智能体 与运维工程场景的 Agent-Native SRE 平台,强调从第一条告警开始自动调查、并行验证多个根因假设,并把代码、基础设施、可观测性和 SOP 连接到同一条调查链路中。

Calmo 产品界面

Calmo - Agent-Native SRE 平台

核心参数与统计

参数 详情
产品定位 Agent-Native SRE Platform
核心任务 Incident Investigation、Root Cause Analysis、Alert Triage、Remediation
连接对象 代码、基础设施、可观测性、Playbook、SOP、团队协作工具
典型集成 Datadog、Sentry、GitHub、Grafana、Kubernetes、Slack、Notion
企业特性 欧洲存储、BYO Model、On-Premise、Trust Center
上手方式 Web 平台 + CLI 安装命令

一句话简评:Calmo 的卖点不是“帮你看告警”,而是替 SRE 团队先跑完第一轮事故调查,把人从“先找线索”解放到“验证和决策”。

用户与市场认可

官网直接把产品面向 SRE、DevOps 和生产工程团队,并强调可减少告警噪音、缩短 MTTR、生成 remediation plan 与代码/PR。对团队真正有参考价值的不是这些口号,而是三类验证:

  • 从第一条告警到初步判断需要多久
  • 对真实生产环境的接入成本有多高
  • 自动调查结果是否能被工程师信任并复用

成本优势

官网未公开标准价格,但给出了 14 天试用与 ROI 计算场景。真实成本不只在订阅,还在以下三部分:

  • 工程时间成本:减少 SRE/平台工程师在日志、监控和代码之间来回切换。
  • 事故停机成本:缩短定位时间,降低故障放大窗口。
  • 知识流失成本:将事故经验沉淀为 SOP 和调查资产。

降本增效推演(非官方承诺)

  • 对经常被高频告警打断的团队,第一轮定位时间可能从 30-90 分钟降到几分钟级的候选假设验证。
  • 对新人 SRE,过去依赖资深工程师口头经验的场景,可以转成 SOP 和可搜索调查知识,减少“找人问”的时间。

主要功能

  • Autonomous Incident Investigation:告警到来后先做自动调查。
  • Parallel Hypothesis Validation:并行验证多个根因假设,而不是串行猜测。
  • Playbook & SOP Library:把团队故障处理经验索引为可调用知识。
  • Remediation Plans with Code Snippets and PRs:生成修复建议与代码层支持线索。
  • Infrastructure Integrations:连接监控、代码仓库、协作与知识工具。
  • CLI / Bridge IDE:把调查能力带进工程师实际工作界面。

隐藏联动:Calmo 的强点是把“监控 -> 调查 -> 证据 -> SOP -> 修复建议”串在一条线里,减少传统事故处理中多系统跳转造成的上下文断裂。

模型与版本演进

阶段 时间 变化
自动调查阶段 ~2025-01 以事故调查与根因分析切入
知识沉淀阶段 ~2025-09 增加 Playbook 与 SOP 资产化能力
Agent-Native 平台阶段 ~2026-01 强化 CLI、Bridge IDE、BYO Model、On-Premise 等企业特性

技术优势

  • 并行验证假设:比串行排查更符合复杂生产事故的真实节奏。
  • 系统级上下文汇聚:同时读取代码、监控、部署与知识资产。
  • 企业落地意识强:公开强调欧洲存储、BYO Model、On-Premise 和不使用客户数据训练。

如果从 Agent 视角拆开看,Calmo 的真实动作面大致是:读取告警和监控信号、查询日志与错误、关联代码仓库和变更、调取 Playbook/SOP、生成修复建议。官方没有公开标准化 tool schema,但公开页面已经足够说明它不是“单轮问答 Agent”,而是围绕调查链路组织动作的系统型 Agent。

可用文本链路可以概括为:

Alert / Incident -> Calmo Agent -> Telemetry + Code + Playbook Context -> Hypothesis Validation -> Suggested Remediation -> Human Approval

这意味着 Calmo 的优势不是替你拍脑袋猜根因,而是先把工程师最耗时的证据聚合和初步排查动作跑一遍。

人机协作边界

  • 可高度自动化:告警初筛、信号聚合、假设生成、证据收集、历史 SOP 调用。
  • 必须人工确认:生产环境变更执行、回滚、流量切换、权限升级、外部客户影响决策。
  • 不适配边界:如果团队监控体系不完整、日志和元数据混乱,Calmo 只能加速读取混乱,而不能凭空替你补齐可观测性基础。

工程踩坑主要集中在三点:

  • 调查上下文过载:监控、日志和代码信号太多时,Agent 很容易生成看似全面但优先级错误的调查结论。
  • 过度信任自动建议:修复建议和 PR 草案只能作为起点,不能绕过生产审批。
  • 知识库污染:如果 SOP 和 Playbook 本身过期,Calmo 会把旧流程以更高效率重放出来。

如何使用

入口 说明
官网 https://getcalmo.com/
安装命令 curl -fsSL https://getcalmo.com/get | sh
产品入口 Run Investigations、Use Cases、CLI/Bridge IDE
文档 https://docs.getcalmo.com/introduction

官方公开的快速安装命令如下:

curl -fsSL https://getcalmo.com/get | sh

建议落地流程:

  1. 先接 Datadog、Sentry、Slack、GitHub 这类高价值入口。
  2. 再导入团队 Playbook、Runbook、SOP,形成知识底座。
  3. 用试点事故验证自动调查是否可信,而不是直接全面托管。
  4. 把修复建议留在“建议层”,生产变更继续走人工审批链。
  5. 在值班制度中明确哪些动作只允许读取、哪些动作允许生成建议、哪些动作永远需要人工批准。

产品定价

官网未公开标准价格,但明确提供试用与 ROI 评估语境。企业评估时应将价格和 MTTR、值班负荷、事故协作效率、知识沉淀价值放在一起看,而不是只比较单纯订阅费用。

应用场景

  1. 生产事故调查:告警到来后快速聚合证据与初步根因。
  2. 新人 SRE 辅助:让 SOP 与历史经验更容易被调用。
  3. 多系统分布式排障:把日志、监控、代码和知识链接在同一条调查链路中。
  4. 平台工程效率提升:缩短从发现问题到提出修复方案的时间。

适用人群

  • SRE / 平台工程团队:需要缩短 MTTR 并降低值班认知负荷。
  • DevOps 与 Infra 团队:需要统一处理多数据源事故线索。
  • 工程管理者:需要把事故知识沉淀为组织资产。
  • 不适用人群:几乎没有生产监控体系、没有 SOP、且不愿改造流程的团队。

总结与展望

Calmo 的价值在于把事故响应从“人肉搜索系统证据”转成“Agent 先做证据组织和假设验证”。真正决定 ROI 的不是 Agent 名称,而是你是否有足够好的监控、SOP 和权限控制配合它。采购/采用风险评估:如果团队在权限、审批和生产变更边界上没有提前设防,把自动调查与自动执行混为一谈,会带来误操作和过度信任风险;最稳妥的做法是先让它成为调查副驾驶,再逐步扩大自动化范围。

版本信息

  • Agent-Native SRE Platform 与 Calmo Bridge IDE 阶段 :官网强调 Calmo 已从单纯调查助手扩展为 Agent-Native SRE 平台,支持自动调查、并行假设验证、Playbook/SOP 知识库、CLI 安装入口,以及 BYO Model、On-Premise 与欧洲存储等企业特性。
  • 事故调查与根因分析平台阶段 :平台以自动事故调查和根因分析为核心切入 SRE 场景,逐步扩展到知识库、CLI、集成和修复建议生成。

用户评价

  • 加载评价中...