Gemini 2.5 Pro强势更新并霸榜,Claude 3.7首次遭遇全方位碾压!
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
Gemini2.5Pro更新来了,这次的Claude3.7被打得毫无还手之力!
今天最引人注目的新闻莫过于GoogleDeepMind推出的最新模型Gemini2.5Pro在LMArena各大排行榜全面登顶了!
而且,这不仅仅是简单的一两个领域的领先,而是首次实现了文本、视觉、Web开发全方位霸榜,Claude3.7甚至首次在WebDevArena上失守。
根据LMArena(@lmarena_ai)的消息,Gemini2.5Pro横扫多个AI竞技场:
文本领域(代码生成、风格控制、创意写作等)稳居第一;
视觉能力碾压其他选手,领先幅度高达70分;
Web开发能力首次超越Claude3.7,跃居榜首!
这也是史上第一次有单一模型在文本、视觉和Web开发领域实现如此全面的统治。
从LMArena公布的数据来看,Gemini2.5Pro的表现不仅赢得了榜单,更赢得了社区用户的高度认可。
GoogleDeepMind官方发推表示,他们推出的Gemini2.5Pro(I/O版)在编码能力上做了重大升级:
你可以用一个提示词构建更丰富的网页应用、游戏、模拟环境等等。
他们还展示了通过@GeminiApp如何从自然界的图片中快速生成对应的代码,展示了模型令人惊艳的创造力:
不仅如此,Gemini2.5Pro在WebDevArena中首次超过Claude3.7,这个榜单主要测试模型构建吸引人的网页应用的能力。
Google官方也在推特中强调了这一突破:
此外,这个版本还显著提升了代码转换、编辑能力和开发复杂智能体的表现。开发者们现在可以在GoogleAIStudio、VertexAI以及GeminiApp中使用这个强大的新工具。
Gemini2.5Pro能有如此表现,并非偶然。
官方表示,此次更新主要针对用户在实际编码中的痛点做了针对性的优化,例如:
显著减少调用工具的失败率;
增强了多模态推理能力;
改进了视频理解能力,在VideoMME基准测试中取得了高达84.8%的表现;
全新升级的UI界面构建能力,让Web应用更美观、功能更强大。
GoogleDeepMindCEOMichaelTruell还特别强调了其内部观察:
「新版Gemini2.5Pro显著降低了调用工具的失败率,极大提高了实际编码场景中的效率。」
Google发布的官方博客中表示,Gemini2.5Pro已通过GoogleAIStudio和VertexAI全面向开发者开放,用户可以在GeminiApp中体验各种丰富的功能,如Canvas功能。
博客地址:
https ://blog.google/products/gemini/gemini-2-5-pro-updates/
TheQuickTechGuy(@GoogleDeepMind)表示对Gemini2.5Pro能力的认可:
「将自然图片转化为代码,这种创意真是太棒了!期待它在更复杂的Web应用和模拟环境中的表现。」
而AndrewHoskins(@NeuralNinjas)也对Gemini2.5Pro给出了很高的评价,同时好奇下一次能否有竞争对手@Grok出来挑战一下:
「GoogleDeepMind🔥恭喜!不知道@grok能不能下一次夺回冠军?」
但并非所有人都盲目乐观,比如VladimirGoncharov提出了一些严肃的质疑,他表示新版本在几个测试中反而有退步,比如:
HLE测试:18.8→17.8🔴
GPQA:84.0→83.0🔴
SimpleQA:52.9→50.8🔴
虽然有一些指标有提升,比如LiveCodeBench和Aider,但整体上表现不如预期,他认为Gemini2.5Pro实际表现更像是Gemini2.4。
尽管存在一些质疑,但Gemini2.5Pro此次的表现足以证明,它在文本、视觉和Web开发领域的综合能力已经登顶,目前看来,短期内难有对手。
这个最新版本甚至提前在GoogleI/O大会之前发布,也引发了许多用户对大会将有更多惊喜的期待。
此外GoogleDeepMind首席科学家JeffDean还指出,Gemini2.5Pro的更新修复了03-25初始版本中人们注意到的功能调用问题:
Gemini2.5Pro,AI领域的全新标杆,喊话Anthropic将全面取代Claude3.7成为当下最炙手可热的模型:不服来战!
不过,我唯一想要问的是:
怎么不叫2.6?
👇
👇
👇
另外,我还用AI进行了全网的AI资讯采集,并用AI进行挑选、审核、翻译、总结后发布到《AGIHunt》的知识星球中。
这是个只有信息、没有感情的AI资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息)