刚刚,Gemini 2.5 Pro编程登顶,6美元性价比碾压Claude 3.7 Sonnet。不仅如此,谷歌还暗藏着更强的编程模型Dragontail,这次是要彻底翻盘了。
谷歌,彻底打了一场漂亮的翻身仗。
aider多语言编程基准测试显示,Gemini 2.5 Pro近出世半个多月,编程能力已经是全球第一,口碑一众超越Claude 3.7 Sonnet。 不仅如此,除了DeepSeek,它的性价比也是最优的,成本低至6美金。
为了强调Gemini 2.5 Pro成本优势,Jeff Dean还附上了超详细TOP 10模型的成本图。
他骄傲地表示,「有些性能不怎么样的模型,还要比Gemini 2.5贵上2倍、3倍,甚至是30倍」。
原本,以强大编程能力著称的Claude,成为广大开发者的主战场。如今有了Gemini 2.5,AI编程将会上演一场史上最大的「迁徙」。
更令人欣喜的是,Gemini 2.5 Pro还不是编程最强的那个。
这几天,竞技场上,突然现身多款据称是谷歌开发的模型,包括Nightwhisper、Dragontail等,编程能力让人惊艳。
网友实测发现,毫不夸张地说,Dragontail编程能力足以摧毁Gemini 2.5 Pro。
虽不知这款模型具体何时面世,但显然谷歌还有很多惊喜在等着我们。另一边,奥特曼也在今日凌晨,下达战书——
传说中的GPT-4.1、满血版o3、o4-mini大概率会发布
预计本周,AI圈又将是一场恶战。
Gemini 2.5 Pro编程霸榜,性价比最优
3月25日官宣,Gemini 2.5 Pro半个多月里,各种精彩实测让其在全网的热度一直居高不下。
最新aider基准测试,又为这款模型添上了一把火。官方接续Jeff Dean的图,做了一张更加直观可视化的表。
Aider Polyglot基准测试是评估AI模型在多语言编程能力上的重要指标,涉及C++、Go、Java、JavaScript、Python和Rust等多种编程语言。
看得出,o1是十款模型中,最贵的那个(186.5美元),其次是Claude 3.7 Sonnet(32k thinking token)成本为36.83美元。
再之后,就是o3-mini、Claude 3.7 Sonnet(no thinking)、DeepSeek R1+Claude 3.5 Sonnet。
这些模型成本高不说,多语言编程能力还不如Gemini 2.5 Pro。
而且,谷歌第七代TPU也在发挥最大的效用了,能够加速Gemini 2.5 Pro token的处理速度。
在网友实测的demo中,Gemini 2.5 Pro在单次编程提示中,表现非常出色——创建一个随着音律跃动的3D星球。
谷歌产品负责人Logan Kilpatrick忍不住美言了几句,「想要找到这样既前沿,又具性价比的模型,真的太难了。Gemini 2.5 Pro真的是特别的那一款」。
一直以来,Anthropic没有解决Claude速率限制问题,还推出了每月200美金付费计划,在开发者心中大打折扣。
谷歌Gemini 2.5 Pro凭借卓越的多语言编程能力,和超高的性价比,再次证明了谷歌在AI领域的深厚实力。
谷歌在AI领域全面获胜
如今看来,在这场AI激烈竞赛中,能全面Scaling的科技大厂,唯有谷歌了。
Gemini 2.5 Pro Experimental是全球最优秀的AI模型,OpenAI和Anthropic目前都毫无胜算。
它在LMArena、GPQA Diamond、人类终极测试以及AIME等多项权威测评中,均排名第一。
在Aider Polyglot、Live Bench等非公开基准测试里也名列前茅。
在《宝可梦》游戏测试中,它的表现优于Claude Sonnet。此外,它在创意写作方面也有不错的表现,尤其是长文本理解能力。
更重要的是,Gemini 2.5 Pro Experimental的基准测试成绩,与实际使用体验、专业测评反馈高度吻合。
大量用户反馈,Gemini 2.5 Pro Experimental确实是当下最强的AI模型。
这种情况在竞争激烈的AI行业实属罕见。
此外,它速度快、成本低,谷歌甚至为用户提供免费使用权限。
它的上下文窗口多达100万个token,并与谷歌庞大的产品生态紧密相连。
即将发布的Gemini 2.5 Flash是Gemini 2.5 Pro的「姊妹版本」,同样表现出色。
它运行速度极快且成本极低,比竞争对手的同类模型便宜得多。
Gemini 2.5 Flash非常适合应用于边缘计算场景,也便于集成到手机设备中。
Gemma 3是谷歌推出的开源模型,在性能上能与Llama 4、DeepSeek-V3等顶尖开源模型相媲美。
在性能和成本这两个关键指标上,谷歌的Gemini 2.0/2.5系列(包括Pro和Flash版本)占据着Pareto最优前沿。
这意味着谷歌性能最强的模型,成本控制得也很好;性价比最高的模型,性能同样出色。
这使其成为预算有限的开发者、企业和初创公司的理想选择。
在其他生成式AI领域,谷歌同样占据着主导地位。
谷歌宣布,将把旗下的Lyria、Imagen 3、Veo 2和Chirp 3等AI工具整合到Vertex AI平台。它们在各自领域都是世界一流水平。
在智能体领域,开启深度研究模式的Gemini 2.5 Pro,表现比OpenAI的深度研究功能强一倍。
Gemini与OpenAI深度研究功能的对比
彩蛋:Dragontail
近期,网上流传着一款谷歌尚未正式发布的模型,代号「Dragontail」。
据称其在Web开发领域表现惊艳,甚至超越了旗舰模型Gemini 2.5 Pro。
Dragontail最早出现在WebDev Arena(https://web.lmarena.ai/)的测试环境中。
经开发者测试发现,在生成复杂用户界面、多页面网站和交互式应用方面,其展现出的能力远超其他模型。
尽管谷歌尚未官方确认Dragontail,它在某些测试中自称是「由谷歌训练的LLM」,这与Gemini 2.5 Pro的回应一致。
人们猜测它可能是谷歌内部开发的下一代模型,或者Gemini系列的升级版本。
Dragontail的实力究竟如何?根据测试者的反馈,这款模型在WebDev任务中的表现堪称碾压。
Dragontail在以下几个方面展现了绝对优势:
卓越的UI设计
Dragontail生成的UI元素,不仅功能完善,在布局、配色和交互性上也极具美感。
比如,当要求生成一个带有复杂导航功能的零售网站时,Dragontail能输出整洁的代码,里面包含动态加载的商品列表、响应式设计,页面切换效果也很流畅。
相比之下,即使是当前WebDev排行榜上表现出色的Gemini 2.5 Pro Experimental,在细节处理上还是差了一点,偶尔会出现布局不够直观,或交互不够顺畅的问题。
功能实现的完整性
Dragontail生成的Web应用,功能实现上几乎没有瑕疵。
从前端的JavaScript逻辑,到后端的API集成,它都能给出生产级别的代码。
比如,开发者要求生成一个带有实时数据更新的仪表盘,Dragontail不仅完成了前端可视化,还自动生成了后端模拟数据接口。
Gemini 2.5 Pro在做类似任务时,往往需要额外的提示才能把逻辑补全。
代码质量与优化
Dragontail的代码风格规范,遵循现代Web开发的最佳实践。
它生成的React或Vue组件结构清晰,状态管理井井有条,还包含了错误处理和性能优化。
相比之下,Gemini 2.5 Pro虽然也能生成高质量代码,但在复杂项目中,偶尔会出现冗余代码,或者不必要的复杂逻辑。
测试者一致认为,Dragontail在视觉效果、功能完整性和用户体验方面全面领先。
让人怀疑,Dragontail是否代表了谷歌在Web开发AI领域的全新突破。
(注:基于WebDev Arena测试数据、开发者反馈及社交平台X上的讨论,部分信息尚未得到谷歌官方证实,具体细节以未来发布为准。)
参考资料:
https://x.com/paulgauthier/status/1911495784908177694
https://www.tealgorithmicbridge.com/p/google-is-winning-on-every-ai-front
https://www.reddit.com/r/Bard/comments/1jx6lr4/unreleased_google_model_dragontail_crushes_gemini/
来源:36kr
|