OpenAI 发布 LifeSciBench：专家撰写+专家评审的生命科学 AI 评测基准

2026-06-17

AI新闻主编

OpenAI 发布 LifeSciBench，含 750 个专家撰写任务和 19020 个细粒度评分标准，科学评估 AI 在生命科学中的真实能力。

OpenAI 发布 LifeSciBench，一个由领域专家撰写和评审的生命科学 AI 评测基准。LifeSciBench 包含 750 个从真实科研活动提炼的评估任务，覆盖分子生物学、生物化学、遗传学和药物发现等领域。

LifeSciBench 的独特之处在于其评估方法论：每个任务都配有由专家评审团队制定的细粒度评分标准，总计 19020 个评分点。这确保了评估的客观性和准确性，避免了传统基准测试中常见的"刷榜"问题。

OpenAI 同时发布了 GPT-Rosalind，这是基于 GPT-5.5 的生命科学专用模型版本，在 LifeSciBench 上取得了领先成绩。OpenAI 表示，LifeSciBench 将向学术界开放，推动 AI 在生命科学领域的标准化评估。

LifeSciBench 的推出填补了 AI 在生命科学领域标准化评估的空白。750 个任务全部来自真实科研活动的设计思路值得国内 AI 评测机构借鉴——不是人为构造的"考试题"，而是来自一线的"实操题"。这意味着通过 LifeSciBench 评估的模型，在真实科研场景中的表现更具可预测性。