
OpenAI 承认 Claude 是最佳的了(狗头)偷拍视频。 刚刚开源的新基准测试 PaperBench,6 款前沿大模子驱动智能体 PK 复现 AI 顶会论文,新版 Claude-3.5-Sonnet 显赫稀薄 o1/r1 名按次一。 
与旧年 10 月 OpenAI 锻真金不怕火 Agent 机器学习代码工程才气 MLE-Bnch 比较,PaperBench 更锻真金不怕火空洞才气,不再是只试验单一任务。 具体来说,智能体在评估中需要复刻来自 ICML 2024 的论文,任务包括清晰论文、编写代码和试验实验。 
最终收获如下: Claude-3.5-Sonnet 断崖式最初,第二名 o1-high 分数只消第一的 60%,第三名 DeepSeek-R1 又只消第二名的一半。 此外 GPT-4o 高出了推理模子 o3-mini-high 也算一个亮点。 
除了 AI 之间的 PK, OpenAI 此次还招募顶尖的机器学习博士对比 o1。 天然最终论断是 AI 在复现顶会论文上还无法稀薄东说念主类,但伸开技术轴发现,在责任技术 1-6 小时内 Ai 的程度已经比东说念主类要快的。 12-24 小时阶段 AI 与东说念主类的程度终点,东说念主类需要责任 24-48 小时才能高出 AI。 
有创业者赞美 OpenAI 这波简直 Open 了,况且不护讳竞争敌手的出色进展,我们科技圈就需要这种精神。 
Agent 复现顶会论文 PaperBench 中式 20 篇 ICML 2024 Spotlight 和 Oral 论文,条件 AI 创建代码库并试验实验,复制论文效能,且不可使用原作家代码。 
OpenAI 与每篇论文的原作家共同制定介怀评分尺度,系数包含 8316 个可单独评分的任务。 开卷锻真金不怕火,也即是允许 Agent 有限联网搜索,把原论文代码库和其他东说念主复现的代码库拉黑名单。 好意思满评估进程分为 3 个阶段: Agent 在 ubuntu 容器中创建并提交复制论文的代码库。 在具有 GPU 看望权限的新容器中试验代码 裁判模子在第三个容器中给复现截止打分 
评估时用分级尺度打分,按叶节点、父节点逐级评分,主要目标是通盘论文的平均复制分数。 
评分亦然由大模子自动试验,实验发现 o3-mini 当裁判的性价比最高。 给每篇论文评分破耗 66 好意思元,比遴聘东说念主类巨匠当裁判要低廉,速率也更快。 清纯学生妹
运转评估所需的代码和数据、Docker 镜像等正在 GitHub 渐渐开源。 
One More Thing 在论文的附录中,OpenAI 还给出了让 AI 复现顶会论文的 Prompt,有需要的一又友不错学习一下。 BasicAgent System Prompt: 强调智能体要好意思满复制论文,明确最终方向是让运转 reproduce.sh 能复现论文通盘目标 素养智能体使用用具渐渐完成任务,幸免一次性试验过多操作 条件智能体充分讹诈技术优化科罚决议,而不是急于提交初步截止 
IterativeAgent System/Continue Prompt: 强调技术很充裕,要渐渐完成任务 每一步都教唆智能体使用可用的用具 强调代码编写步调 
Task Instructions: 明确任务、可用资源、提交条件等多方面信息 
给出代码示例 临了再次强调权限、锻真金不怕火技术等,还教唆 AI 要简直去试验复现,而不仅仅写一个策画。 
就有点像东说念主类准验证上写的科场应知了。 论文地址: https://openai.com/index/paperbench/ 参考畅通: [ 1 ] https://x.com/OpenAI/status/1907481494249255193 一键三连「点赞」「转发」「贯注心」 迎接在驳斥区留住你的思法! — 完 — 速抢席位!中国 AIGC 产业峰会不雅众报名通说念已开启 � � ♀️ 最新嘉宾曝光啦 � � 百度、华为、AWS、无问芯穹、数势科技、面壁智能、生数科技等十数位 AI 边界创变者将都聚峰会,让更多东说念主用上 AI、用好 AI,与 AI 一同加快成长~ 4 月 16 日,就在北京,整个来深度求索 AI 如何用 � � 
� � 一键星标 � � 科技前沿进展逐日见偷拍视频
|