OpenAI 发布 LifeSciBench:专家撰写+专家评审的生命科学 AI 评测基准

OpenAI 发布 LifeSciBench,含 750 个专家撰写任务和 19020 个细粒度评分标准,科学评估 AI 在生命科学中的真实能力。

OpenAI 发布 LifeSciBench:专家撰写+专家评审的生命科学 AI 评测基准

OpenAI 发布 LifeSciBench,一个由领域专家撰写和评审的生命科学 AI 评测基准。LifeSciBench 包含 750 个从真实科研活动提炼的评估任务,覆盖分子生物学、生物化学、遗传学和药物发现等领域。

LifeSciBench 的独特之处在于其评估方法论:每个任务都配有由专家评审团队制定的细粒度评分标准,总计 19020 个评分点。这确保了评估的客观性和准确性,避免了传统基准测试中常见的"刷榜"问题。

OpenAI 同时发布了 GPT-Rosalind,这是基于 GPT-5.5 的生命科学专用模型版本,在 LifeSciBench 上取得了领先成绩。OpenAI 表示,LifeSciBench 将向学术界开放,推动 AI 在生命科学领域的标准化评估。

LifeSciBench 的推出填补了 AI 在生命科学领域标准化评估的空白。750 个任务全部来自真实科研活动的设计思路值得国内 AI 评测机构借鉴——不是人为构造的"考试题",而是来自一线的"实操题"。这意味着通过 LifeSciBench 评估的模型,在真实科研场景中的表现更具可预测性。

版权声明:本文内容来自 OpenAI 官方 Blog 。本平台对该内容进行了编译和整理,仅用于信息传播和学习交流之用。如有侵权,请联系我们进行处理。

用户评价

  • 加载评价中...