人工智能OpenAI Blog·2026年6月17日

Introducing LifeSciBench

综合评分

重要性

新颖性

趋势性

摘要

OpenAI 正式发布生命科学与AI基准测试平台，旨在系统化评估人工智能模型在生物学、化学及医药研发等领域的综合性能。该平台整合了蛋白质结构预测、分子生成与生物推理等核心任务，采用标准化数据集与多维指标进行量化考核。此举为大语言模型向垂直科研场景落地提供了明确方向，并为自动化科学发现进程确立了可复现的技术标尺。

为何重要

•填补了AI在复杂生命科学任务上的标准化评估空白，为不同模型的能力对比提供统一标尺。
•推动大语言模型从通用交互向专业科研工具演进，显著加速药物筛选与基础生物学研究周期。
•降低科研人员调用先进AI算力的门槛，促进实验设计、数据解析与假设验证的自动化流程。
•精准暴露当前模型在长程科学逻辑与跨学科知识融合中的短板，指引下一代模型架构优化路径。

人工智能生命科学基准测试大语言模型药物研发科学计算AI评估自动化科研

OpenAI

阅读原文 →

读者互动

您可以登录/注册后再发表

行业观点0

先选择产业情绪

相关信号

人工智能雷锋网·1 天前

Gartner发布企业级AI Coding报告，阿里云入围挑战者象限

知名市场研究机构Gartner近日正式发布企业级AI编程工具评估报告。阿里云凭借在AI辅助编码领域的持续技术投入与实际落地成效，成功入选报告中的“挑战者”象限。该报告系统评测了多款主流AI代码生成与开发辅助工具，全面展现了当前企业级AI编程赛道的技术演进路线与市场竞争态势。

AI编程企业级AIGartner报告阿里云

评分

人工智能雷锋网·1 天前

【ICML 2026】刷新高光谱图像恢复任务SOTA!DAMP：面向高光谱影像恢复的退化感知度量提示框架

本文基于ICML 2026会议信息，介绍了名为DAMP的新型AI框架。该框架针对高光谱图像恢复任务，提出了一种退化感知度量提示机制，旨在解决复杂成像条件下的图像失真问题。研究宣称已刷新该任务SOTA，为遥感、医疗等依赖高光谱数据的领域提供了更高效的图像处理方案。

人工智能计算机视觉高光谱图像深度学习

评分

人工智能雷锋网·1 天前

GAIR Paper 107｜高校联合腾讯发布 GameCraft-Bench：AI已能端到端开发游戏，Claude Opus 四成达到可玩水平

由GAIR团队联合多所高校与腾讯共同发布的GameCraft-Bench基准测试，系统评估了大语言模型在端到端游戏开发中的实际能力。测试结果表明，以Claude Opus为代表的顶尖AI模型已能在约四成的任务中生成具备可玩性的完整游戏代码与资源，标志着人工智能在游戏自动化创作与复杂逻辑构建方面取得显著进展。

AI游戏开发大语言模型基准测试自动化编程

评分

人工智能雷锋网·1 天前

ICML2026 |SEER：自动增强+替换Patch，同时搞定噪声、异常、缺失、分布偏移的新SOTA模型！

本文报道了ICML 2026上提出的一种名为SEER的新型机器学习模型。该模型通过自动数据增强与Patch替换机制，有效解决了训练数据中常见的噪声、异常值、缺失值及分布偏移等问题。作为当前在该领域的最新SOTA方案，SEER显著提升了深度学习模型在复杂真实场景下的鲁棒性与泛化能力，为高质量模型训练提供了新思路。

ICML 2026SEER模型机器学习自动数据增强

评分

人工智能雷锋网·12 小时前

重构交互底层逻辑：Rokid发布AIOS，智能眼镜行业进入“原生”时刻

本文报道了Rokid正式发布AIOS（人工智能操作系统），旨在重构智能眼镜的底层交互逻辑。该系统的推出标志着智能穿戴设备正从传统操作模式向AI原生交互全面演进，预示着智能眼镜行业将进入以大模型驱动、自然语言为核心的人机交互新阶段，为下一代可穿戴终端的技术路线与生态建设提供了关键基础设施。

RokidAIOS智能眼镜人工智能操作系统

评分