u乐娱乐平台到账
新闻动态

你的位置:u乐娱乐平台到账 > 新闻动态 > 港大团队用AI重现论文,准确率远超剑桥伯克利,碾压人类博士团

港大团队用AI重现论文,准确率远超剑桥伯克利,碾压人类博士团

发布日期:2025-11-24 02:24    点击次数:122

前言

AI圈又掀起一阵“波动”啦!

不久前,香港大学黄超团队推出的开源项目DeepCode,在论文复现的测试中,首次超越了来自剑桥、伯克利等8所顶尖大学的机器学习博士,甚至还跑赢了Claude Code、Cursor这些受欢迎的商业代码工具。

这个发现不仅让学术圈为之一振,很多开发者都忍不住感叹:“AI写代码的时代,真是到来了!”

论文复现的“拦路虎”,被AI攻克了

在科研圈里,阅读论文和复现算法一直像两座大山一样难爬。许多论文虽然提出了新颖的模型或方法,但那些关键的实现细节——比如超参数怎么调、数据怎么搞——却经常被省略不提。即使是经验丰富的研究者,也常常陷在复现的过程中,费时又费力。

DeepCode的厉害之处在于,它能够直接分析论文的PDF文件,理解里面的数学公式和算法框架,还能自动产出可以跑的代码,甚至会附带测试用例和技术说明书。

在OpenAI推出的PaperBench测试中,DeepCode的复现正确率是75.9%,比人类专家组的72.4%还高一些。

参与这次测试的博士们都来自UC Berkeley、剑桥等顶尖大学,还能随意用ChatGPT、Copilot这些工具,不过在四周的开发时间里,表现还是稍微比不过。

不仅赢人类,还甩开商用AI一截

DeepCode的亮点可不仅仅是在跟人类比拼,在同样的测试标准下,它还和目前主流的商业代码智能助手展开较量,结果以84.8%的高分遥遥领先Claude Code的58.7%。

要说这点值得一提的地方,就在于这些商业工具都搭载了最新的基础模型,比如Claude 4.5和GPT 5 codex-high。团队指出,差距主要源自DeepCode采用的多智能体协作架构:它把任务拆分成“规划-生成-调试”三步,由不同的智能体分别处理,而不是靠单一模型“硬拼”。

不仅如此,DeepCode在科学代码复现框架(比如PaperCoder)以及大模型智能体的对比中也表现出色,复现成功率分别超出22.4%和30.2%。这个事儿说明,对于复杂的任务而言,细腻的架构设计比单纯依赖模型规模更管用。

从论文到网页、后端,DeepCode的“三合一”能力

除了论文复现,DeepCode其实是个多面手。它支持三种核心场景:

Paper2Code这个工具,只要上传论文的PDF,它就能马上给你相应的可用代码和测试用例,特别方便用来快速验证一些学术上的新点子。

Text2Web这个平台,输入你的前端需求描述,它就能自动生成兼容各种设备的网页和对应的交互功能,帮创业者省事儿,快速搞定最初的产品。

Text2Backend能根据你的业务需求,自动提供高效的API和数据库架构,帮助降低微服务开发的难度,让后端搭建变得更轻松。

这个能力的背后,是DeepCode的三步曲:一开始用多智能体仔细分析文档,画出架构蓝图;接着系统化地写出代码;最后通过动态验证,不断调整优化,形成闭环。

特别在“架构蓝图”这一步,它会用概念智能体和算法智能体分别负责不同方面的论文分析,然后由规划智能体来协调整合,防止理解出现偏差。

新案例:助力天文数据可视化项目快速落地

DeepCode的应用不止于论文验证,最近一个国内天文学团队用它,在短短3天内把一篇关于星系分类模型的ICLR论文变成了可以运行的代码,还搞出了个Web界面让人一看就懂。

这个工具原本需要两个月的人力开发时间,可是利用DeepCode一搞,前端界面和后端数据处理服务全都一气呵成,不费吹灰之力就缩短了部署周期。团队负责人说:“以前还得反复调试算法的细节,现在AI直接帮忙生成界面和API,效率简直飞跃一般。”

这个例子也说明了DeepCode的实用价值——它不仅在实验室里用得顺畅,还能推动科研成果快速转变成实际产品。

结语

AI在编程领域已经从单纯的“帮手”变成“合作伙伴”,DeepCode的突破实在是给我们看到AI解决复杂任务的巨大潜力,但同时也敲响了警钟:让AI生成的代码变得更靠谱、更好维护才是关键。以后,随着多智能体架构逐渐成熟,人机配合的开发方式或许会成为新常态。



首页| u乐娱乐平台到账介绍 | 产品展示 | 新闻动态 |

Powered by u乐娱乐平台到账 @2013-2022 RSS地图 HTML地图