AI再次引发人类担忧！实验发现：o3超过94%人类病毒学专家

发布日期: 2025-04-28

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

人类病毒学家为人工智能（AI）设计了一项极其困难的测试，结果令人担忧：
在解决湿实验室问题方面，人类病毒学专家在针对其专业领域定制的问题子集上平均答对率为22.1%，但表现最好的OpenAIo3却实现了43.8%的准确率，并在匹配的问题子集上胜过了94%的病毒学家。
图｜OpenAIo3等模型相对于人类病毒学专家的表现。
这些结果让研究者“有点紧张”，因为这是历史上第一次，几乎任何人都可以接触到一位不带偏见的AI病毒学专家，该专家可能会指导非专业人士制造致命的生物武器。
这一结论来自来自非营利组织SecureBio的研究团队及其合作者共同完成的新研究。他们表示，这一发现是一把双刃剑——专业研究人员可以借助超智能AI模型预防传染病的传播，但非专业人士也可能利用它来制造致命的生物武器。
相关研究论文以“VirologyCapabilitiesTest(VCT):AMultimodalVirologyQ&ABenchmark”为题，已发表在预印本网站arXiv上。
论文链接：https ://arxiv.org/abs/2504.16137
“纵观历史，有不少人试图制造生物武器——而他们失败的主要原因之一，就是缺乏足够的专业知识，”该论文的通讯作者SethDonoughe说。“因此，谨慎对待这些能力的分配方式非常有必要。”
随着AI的加速发展，评估已成为量化大语言模型（LLM）能力的关键，尤其是在科学推理方面。然而，常用的基准有很大的局限性。它们通常依赖于在四个选项中只有一个正确答案的多选题。虽然这类基准可以直接创建、评估和评分，但却无法捕捉到稀有、隐性和不可被搜索的知识。
此外，尽管多模态已成为一种标准的LLM能力，并在现实世界中有着明确的应用，但它们并不测试图像推理能力，许多现有基准都存在虚假Groundtruth标签和快速饱和的问题。
由此，研究团队开发了VirologyCapabilitiesTest(VCT)，旨在测量病毒学的实用知识，尤其侧重于故障排除实验。它针对具有双重用途潜力的病毒学方法以及其他密切相关的方法，不包括一般的分子和细胞生物学方法，也不包括出于安全考虑而明确有害的材料。具体来说，该基准包括重要、困难、经过验证的问题，以及代表真实世界用途的多模态问题。
图｜VCT所含材料
研究团队从184位病毒学专家中收集问题，57位活跃专家中的36位随后参加了人类基准测试，回答了他们没有撰写或审查的问题。他们在设计问题撰写程序时考虑到了基准可以通过相同的输入内容以多种不同的格式运行。所有问题均由人工回答，以评估问题难度和人工准确性。
数据库由问题和评审组成。共享数据集的322个问题中，最常提交的问题主题反映了病毒学家的核心专业领域：细胞培养病毒的技术、基因修饰的分子方法和细胞培养程序。每个提交的问题都由另外两名熟悉该问题特定主题领域的专家进行审查。审阅者对问题表示同意或不同意，并提供反馈意见。
图｜所有提交的问题在创建过程中的流程。
在研究团队对完整基准进行评估的多模态模型中，OpenAIo3表现，准确率达到43.8%，即使在其专业子领域内，也超过了94%的病毒学家。相比之下，博士水平的病毒学家在面对专门针对每个人的子专业领域定制的VCT问题集时，得分仅为22.1%。
图｜前沿AI模型在特定领域表现优于专家，大于0的值表示AI模型的表现优于人类，上方百分比显示了AI模型相对于36位专家的整体表现。
研究发现，截至2025年初，前沿大模型在病毒学领域提供实际疑难解答支持的能力，已达到甚至超过了人类专家水平，而且人类与模型之间的差距正在持续扩大。
这一趋势在其他协议分析基准测试中同样显著：在ProtocolQA基准上，o1模型的表现已接近专家水平；在BioLP-Bench基准上，DeepSeek-R1的成绩已与专家持平。这两项测试的结果相比不到一年前发布的SOTA分数，均有了大幅提升。
VCT是一个包含322个可搜索的、相关的、多模态的病毒学实际疑难解答问题的数据集，其中的问题涉及一些罕见的知识，训练有素的病毒学家自己都认为这些知识很难找到，甚至是隐性的，但o3等领先模型在基准测试中的表现已经超过了人类专家。
在开发VCT的过程中，出于对传播此类信息的潜在风险的考虑，他们排除了某些可能特别有利于造成大规模危害的双重用途病毒学课题。这些课题都是实用、罕见、重要的信息，能够使湿实验室病毒学工作更容易取得成功。
因此，在部署前测试中，VCT可以作为潜在危险信息的信息替代衡量标准，以更好地了解模型在特别敏感的生物学技能方面的能力，并为随后的缓解机制提供信息。提供专家级病毒学故障诊断的能力本质上具有双重用途：它对有益的研究有用，但也可能被滥用。
图｜VCT多选题例题，要求答题者从一组4-10个选项中找出所有正确的陈述。每个问题还附有评分标准，用于在未提供答案陈述的情况下评估开放式回答。
研究团队指出，如今迫切需要通过周到的访问控制，在促进有益研究与应对安全风险之间取得平衡。他们强调，AI系统在为高度双重用途方法（即可被用于正当或恶意目的的技术）提供专家级故障诊断方面的能力，本身就应被视为一种高度双重用途技术。
专家级AI病毒学聊天机器人（仅通过文本互动提供建议）相较于能够自主执行任务的AI病毒学agent而言，风险较小，但两者都需要进行严格的访问控制。尤其是某些特定领域的专业知识，如病毒学方法的实际故障诊断，可能被滥用于造成大规模危害，因此应被排除在下一代广泛可用的大模型能力之外。
针对AI系统中双重用途生物学技能的问题，研究团队建议，未来可参考生命科学领域已有的双重用途研究监管经验，例如由国NSABB主导的管理框架。NSABB已呼吁统一现有的联邦政策，并扩大需要联邦审查的研究范围，以更好地应对潜在的双重用途风险。尽管NSABB尚未建议将基于人工智能的“硅学实验”立即纳入更新后的监管体系，但它强调了持续评估AI与生物技术交叉研究风险与益处的必要性。
类似VCT这样的评估工具，未来可为政府机构（如AISI）及非政府组织提供实证依据，帮助调整现有的双重用途风险管理框架，适应AI时代的需求，并为新一代模型的研究与部署制定更完善的指南。
几个月前，该论文作者已将研究结果分享给各大AI实验室。作为回应，xAI发布了新的风险管理框架，并承诺在其AI模型Grok的未来版本中，加入病毒学防护措施，包括训练模型拒绝有害请求，以及对输入和输出进行内容过滤。OpenAI也在其模型o3和o4-mini中部署了多项与生物安全相关的保护措施，包括阻止潜在的有害输出。
约翰·霍普金斯大学健康安全中心主任TomInglesby指出，仅靠行业自律是不够的，他呼吁立法者和政策制定者采取更积极的行动，制定政策以规范AI带来的生物风险。
“在新的LLM发布前，应该强制进行风险评估，以确保其不会带来大流行病级别的潜在后果。”
论文共同一作JasperGötting表示，由SecureBio和其他机构开展的后续研究将很快检验AI辅助是否可以改善实际实验室的实验结果。
“在评估过程中，我们还观察到一些AI与专家提供的答案不一致的情况，这促使我们思考如何可靠地衡量AI在专家知识不再是可靠标准的课题上取得的进展。”
参考链接：
https ://time.com/7279010/ai-virus-lab-biohazard-study/
阅读最新前沿科技趋势报告，请访问欧米伽研究所的“未来知识库”
https ://wx.zsxq.com/group/454854145828
未来知识库是“欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https ://wx.zsxq.com/group/454854145828进入。
截止到3月31日”未来知识库”精选的百部前沿科技趋势报告
（加入未来知识库，全部资料免费阅读和下载）
牛津未来研究院《将人工智能安全视为全球公共产品的影响、挑战与研究重点》
麦肯锡：超级智能机构：赋能人们释放人工智能的全部潜力
AAAI2025关于人工智能研究未来研究报告
斯坦福：2025斯坦福新兴技术评论：十项关键技术及其政策影响分析报告（191页）
壳牌：2025能源安全远景报告：能源与人工智能（57页）
盖洛普&牛津幸福研究中心：2025年世界幸福报告（260页）
Schwab：2025未来共生：以集体社会创新破解重大社会挑战研究报告（36页）
IMD：2024年全球数字竞争力排名报告：跨越数字鸿沟人才培养与数字法治是关键（214页）
DS系列专题：DeepSeek技术溯源及前沿探索，50页ppt
联合国人居署：2024全球城市负责任人工智能评估报告：利用AI构建以人为本的智慧城市（86页）
TechUK：2025全球复杂多变背景下的英国科技产业：战略韧性与增长路径研究报告（52页）
NAVEXGlobal：2024年十大风险与合规趋势报告（42页）
《具身物理交互在机器人-机器人及机器人-人协作中的应用》122页
2025-2035年人形机器人发展趋势报告53页
EvaluatePharma：2024年全球生物制药行业展望报告：增长驱动力分析（29页）
【AAAI2025教程】基础模型与具身智能体的交汇，350页ppt
Tracxn：2025全球飞行汽车行业市场研究报告（45页）
谷歌：2024人工智能短跑选手（AISprinters）：捕捉新兴市场AI经济机遇报告（39页）
【斯坦福博士论文】构建类人化具身智能体：从人类行为中学习
《基于传感器的机器学习车辆分类》最新170页
美国安全与新兴技术中心：2025CSET对美国人工智能行动计划的建议（18页）
罗兰贝格：2024人形机器人的崛起：从科幻到现实：如何参与潜在变革研究报告（11页）
兰德公司：2025从研究到现实：NHS的研究和创新是实现十年计划的关键报告（209页）
康桥汇世（CambridgeAssociates）：2025年全球经济展望报告（44页）
国际能源署：2025迈向核能新时代
麦肯锡：人工智能现状，组织如何重塑自身以获取价值
威立（Wiley）：2025全球科研人员人工智能研究报告（38页）
牛津经济研究院：2025TikTok对美国就业的量化影响研究报告：470万岗位（14页）
国际能源署（IEA）：能效2024研究报告（127页）
Workday：2025发挥人类潜能：人工智能（AI）技能革命研究报告（20页）
CertiK：Hack3D：2024年Web3.0安全报告（28页）
世界经济论坛：工业制造中的前沿技术：人工智能代理的崛起》报告
迈向推理时代：大型语言模型的长链推理研究综述
波士顿咨询：2025亚太地区生成式AI的崛起研究报告：从技术追赶者到全球领导者的跨越（15页）
安联（Allianz）：2025新势力崛起：全球芯片战争与半导体产业格局重构研究报告（33页）
IMT：2025具身智能（EmbodiedAI）概念、核心要素及未来进展：趋势与挑战研究报告（25页）
IEEE：2025具身智能（EmbodiedAI）综述：从模拟器到研究任务的调查分析报告（15页）
CCAV：2025当AI接管方向盘：自动驾驶场景下的人机交互认知重构、变革及对策研究报告（124页）
《强化学习自我博弈方法在兵棋推演分析与开发中的应用》最新132页
《面向科学发现的智能体人工智能：进展、挑战与未来方向综述》
全国机器人标准化技术委员会：人形机器人标准化白皮书（2024版）（96页）
美国国家科学委员会（NSB）：2024年研究与发展-美国趋势及国际比较（51页）
艾昆纬（IQVIA）：2025骨科手术机器人技术的崛起白皮书：创新及未来方向（17页）
NPL&Beauhurst：2025英国量子产业洞察报告：私人和公共投资的作用（25页）
IEAPVPS：2024光伏系统经济与技术关键绩效指标（KPI）使用最佳实践指南（65页）
AGI智能时代：2025让DeepSeek更有趣更有深度的思考研究分析报告（24页）
2025军事领域人工智能应用场景、国内外军事人工智能发展现状及未来趋势分析报告（37页）
华为：2025鸿蒙生态应用开发白皮书（133页
《超级智能战略研究报告》
中美技术差距分析报告2025
欧洲量子产业联盟（QuIC）：2024年全球量子技术专利态势分析白皮书（34页）
美国能源部：2021超级高铁技术（Hyperloop）对电网和交通能源的影响研究报告（60页）
罗马大学：2025超级高铁（Hyperloop）：第五种新型交通方式-技术研发进展、优势及局限性研究报告（72页）
兰德公司：2025灾难性网络风险保险研究报告：市场趋势与政策选择（93页）
GTI：2024先进感知技术白皮书（36页）
AAAI：2025人工智能研究的未来报告：17大关键议题（88页）
安联Allianz2025新势力崛起全球芯片战争与半导体产业格局重构研究报告
威达信：2025全球洪水风险研究报告：现状、趋势及应对措施（22页）
兰德公司：迈向人工智能治理研究报告：2024EqualAI峰会洞察及建议（19页）
哈佛商业评论：2025人工智能时代下的现代软件开发实践报告（12页）
德安华：全球航空航天、国防及政府服务研究报告：2024年回顾及2025年展望（27页）
奥雅纳：2024塑造超级高铁（Hyperloop）的未来：监管如何推动发展与创新研究报告（28页）
HSOAC：2025美国新兴技术与风险评估报告：太空领域和关键基础设施（24页）
Dealroom：2025欧洲经济与科技创新发展态势、挑战及策略研究报告（76页）
《无人机辅助的天空地一体化网络：学习算法技术综述》
谷歌云（GoogleCloud）：2025年AI商业趋势白皮书（49页）
《新兴技术与风险分析：太空领域与关键基础设施》最新报告
150页！《DeepSeek大模型生态报告》
军事人工智能行业研究报告：技术奇点驱动应用加速智能化重塑现代战争形态-250309（40页）
真格基金：2024美国独角兽观察报告（56页）
璞跃（PlugandPlay）：2025未来商业研究报告：六大趋势分析（67页）
国际电工委员会（IEC）：2025智能水电技术与市场展望报告（90页）
RWS：2025智驭AI冲击波：人机协作的未来研究报告（39页）
国际电工委员会（IEC）：2025智能水电技术与市场展望报告（90页）
RWS：2025智驭AI冲击波：人机协作的未来研究报告（39页）
未来今日研究所2025年科技趋势报告第18版1000页
模拟真实世界：多模态生成模型的统一综述
中国信息协会低空经济分会：低空经济发展报告（2024-2025）（117页）
浙江大学：2025语言解码双生花：人类经验与AI算法的镜像之旅（42页）
人形机器人行业：由“外”到“内”智能革命-250306（51页）
大成：2025年全球人工智能趋势报告：关键法律问题（28页）
北京大学：2025年DeepSeek原理和落地应用报告（57页）
欧盟委员会人工智能与未来工作研究报告
加州大学伯克利分校：面向科学发现的多模态基础模型：在化学、材料和生物学中的应用
电子行业：从柔性传感到人形机器人触觉革命-250226（35页）
RT轨道交通：2024年中国城市轨道交通市场数据报告（188页）
FastMoss：2024年度TikTok生态发展白皮书（122页）
CheckPoint：2025年网络安全报告-主要威胁、新兴趋势和CISO建议（57页）
【AAAI2025教程】评估大型语言模型：挑战与方法，199页ppt
《21世纪美国的主导地位：核聚变》最新报告
沃尔特基金会（VoltaFoundation）：2024年全球电池行业年度报告（518页）
斯坦福：2025斯坦福新兴技术评论：十项关键技术及其政策影响分析报告（191页）
国际科学理事会：2025为人工智能做好国家研究生态系统的准备-2025年战略与进展报告（英文版）（118页）
光子盒：2025全球量子计算产业发展展望报告（184页）
奥纬论坛：2025塑造未来的城市研究报告：全球1500个城市的商业吸引力指数排名（124页）
FutureMatters：2024新兴技术与经济韧性：日本未来发展路径前瞻报告（17页）
《人类与人工智能协作的科学与艺术》284页博士论文
《论多智能体决策的复杂性：从博弈学习到部分监控》115页
《2025年技术展望》56页slides
大语言模型在多智能体自动驾驶系统中的应用：近期进展综述
【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用
皮尤研究中心：2024美国民众对气候变化及应对政策的态度调研报告：气候政策对美国经济影响的多元观点审视（28页）
空间计算行业深度：发展趋势、关键技术、行业应用及相关公司深度梳理-250224（33页）
Gartner：2025网络安全中的AI：明确战略方向研究报告（16页）
北京大学：2025年DeepSeek系列报告-提示词工程和落地场景（86页）
北京大学：2025年DeepSeek系列报告-DeepSeek与AIGC应用（99页）
CIC工信安全：2024全球人工智能立法的主要模式、各国实践及发展趋势研究报告（42页）
中科闻歌：2025年人工智能技术发展与应用探索报告（61页）
AGI智能时代：2025年Grok-3大模型：技术突破与未来展望报告（28页）
上下滑动查看更多