FlagEval 免费

开发公司北京智源人工智能研究院（BAAI）

地区中国

官网 https://flageval.baai.ac.cn/

FlagEval（天秤）是智源研究院（BAAI）推出的大模型评测平台，围绕语言、多模态等方向提供多维度的模型能力评测与榜单，帮助研究者与企业理解不同模型的能力边界。

工具正文

FlagEval（天秤）是智源研究院推出的大模型评测平台。它要解决的核心问题是“同样宣称很强的模型，到底强在哪、弱在哪”——通过统一、多维度的评测，把模型能力转化为可对比的结果。

评测价值：对模型选型而言，单看官方宣传的指标容易失真，FlagEval 的意义在于提供相对独立、统一口径的评测视角，帮助使用者交叉验证模型的真实能力分布。

多维度导向：以“天秤”为名，强调多维度权衡而非单一分数，这对理解模型在不同任务上的差异更有参考价值。具体评测维度与指标以官方平台为准。

FlagEval 的认可主要来自研究界与产业界对独立评测体系的需求，作为智源研究院的产出，具备一定的中立性与权威基础。

机构背书：智源研究院是国内重要的 AI 研究机构，FlagEval 作为其评测体系，在方法论与公信力上具备基础。

选型参考：对需要做模型选型的团队，第三方评测榜单是重要的交叉参考来源，可降低仅依赖厂商宣传带来的判断偏差。

使用前提：评测结果的参考价值取决于评测集与真实业务任务的匹配度——榜单领先不一定等于在特定业务场景中表现最佳，需结合自身任务复测。

FlagEval 作为研究机构提供的评测平台，对使用者而言成本优势明显：评测榜单与结果通常公开可查，作为公共参考资源。

FlagEval 围绕“多维度评测大模型”组织能力：

具体评测集、指标定义与覆盖模型以官方平台实时信息为准。

FlagEval 以评测体系与榜单的形式持续演进，迭代主要体现在评测集扩展与覆盖模型更新。

由于评测平台随模型生态持续更新，具体评测维度与榜单版本请以官方平台为准。

FlagEval 的优势来自“研究机构方法论 + 多维度评测体系”。

方法系统性：作为智源研究院的评测体系，在评测方法与指标设计上强调系统性与可比性。

多维度权衡：以“天秤”理念覆盖多维度评测，避免单一分数掩盖模型的能力差异。

中立参考：作为第三方评测，提供相对独立于厂商宣传的视角，是模型选型的重要交叉参考。

典型用法是：在平台上查看目标模型的多维度评测结果，结合自身业务任务判断其参考价值，再用真实业务数据做小规模复测，而不是直接把榜单排名等同于业务表现。

FlagEval 作为研究机构提供的评测平台，其榜单与评测结果通常面向公众开放查询，本身不以商业售卖为核心。是否存在面向企业的定制评测服务及其价格，以官方说明为准，本文不对未公开内容做推测。

不太适合的情况是：需要针对特定垂直业务做定制化、贴身评测的团队，公共榜单只能作为起点，最终仍需以自身业务数据复测为准。

FlagEval（天秤）的核心价值在于提供相对独立、多维度的大模型评测视角，是模型选型与研究的重要公共参考资源。它的局限在于评测集未必完全匹配每个具体业务，榜单结论需结合自身数据复测后才能用于决策。

后续值得观察的是其评测集随新模型、新模态的更新速度，以及评测维度的扩展。对使用者而言，建议把 FlagEval 作为选型的交叉参考之一，再以真实业务任务做最终验证，具体评测维度与结果请以官方平台实时信息为准。

FlagEval（天秤）现行版本 ：FlagEval 为持续更新的评测平台与榜单，评测集与覆盖模型随版本扩展，未对外统一为单一软件版本号，具体评测维度与榜单更新以官方平台为准。（~2026-05）
FlagEval 评测体系发布 ：智源研究院推出 FlagEval（天秤）大模型评测平台，建立多维度评测体系并对外发布榜单，后续持续扩展评测集与覆盖模型，具体时间以官方信息为准。（~2023-11）