通信人家园
标题:
同一个Deepseek R1,不同“买家秀”?实测不同云平台ds性能
[查看完整版帖子]
[打印本页]
时间:
2025-3-4 18:06
作者:
ttxx
标题:
同一个Deepseek R1,不同“买家秀”?实测不同云平台ds性能
大模型“撞衫”不可怕,谁性能差谁尴尬——今年年初,DeepSeek R1大模型横空出世,推理能力、性能媲美OpenAI o1,引起模圈震动,得益于其开源策略与灵活部署能力,火山引擎、阿里云、腾讯云、百度智能云等平台争相接入:
数据显示,DeepSeek 相关平台的API调用量急剧增长,根据调研,数码企业、法务公司、电商企业均加速接入DeepSeek-R1开源大模型。而随着越来越多主流厂商接入Deepseek,一场关于基础设施适配能力的暗战悄然展开:
当下,同一款大模型在各平台上呈现出显著的性能分野。前不久,中国软件评测中心人工智能部选择十余家国内外服务的厂商开展全面评测,结果显示,各厂商深度思考能力、代码能力等维度分化明显,如火山引擎、讯飞开放等代码任务能力较强;硅基流动与百度智能云在代码任务中出现少许截断或未回复情况;
推理维度,百度智能云、讯飞开放、火山引擎等平台的生成内容的总字数都接近三千字,其中推理字数占比分别达到68%、69%以及60%,展现出更强的逻辑延展性,相较之下,部分平台仅能提供浅层推理。
这种“橘生淮南则为橘”的现象,揭示了技术适配、资源调度与生态协同的深层博弈。那么,真的有那么明显的差距吗?谁又是DeepSeek的最强辅助?让我们一起试试吧!
一、各平台AIME答疑表现:火山正确率最高,官方其次
众所周知,deepseek最明显的长板即深度推理能力,通过强化学习和混合专家架构(MoE)等技术,显著提升了推理效率和性能。为此,我们选取在大模型测评领域具有权威性的测试集——AIME 数学竞赛题目。
作为美国数学邀请赛,AIME 包含算术、代数、计数、几何、数论、概率等多个领域,要求参赛者在 3 小时内完成 15 道高难度填空题,且答案需精确到三位数,对模型的数学推理能力、逻辑严谨性和计算精度提出了极高要求。
同时,在技术层面,AIME 题目往往需要多步推理和创造性解题策略,例如通过假设验证、思路纠偏或单位换算等复杂操作才能完成解答,这种特性使其成为检验大模型深度推理能力的有效工具。此前,DeepSeek-R1官方在AIME 2024基准测试中取得了79.8%的pass@1得分。
而此次我们通过Python 脚本进行测评(脚本放在文末),选取了火山引擎、阿里云、官方Deepseek、腾讯云四位考生,感兴趣的朋友一起试试吧!
结果:AIME题库下,正确率由高到低依次是:火山引擎83.33% ;官方Deepseek 73.33% ;阿里云 71.67% ;腾讯云58.33% 。
其中火山、 Deepseek各网络状态下表现平稳,测试均为一遍过,30道题全部响应,测得比较省心。
阿里云在电信下异常中断较严重,联通下表现良好,电信下响应7道题,正确率为57.14%,联通下响应29道题,正确率86.20%,取两次的平均值。
腾讯网络无响应情况稍显频繁,同样取多次测试的平均值。
顺带吐槽下,这两家频频不响应,一做题CPU就烧的厂商把我们公司本职程序员,被临时摇来测评的同学脾气都磨没了,一天的测评任务硬生生三天才完成,不是在刷新页面就是在刷新页面的路上,白天在公司修BUG,半夜兼职跑数据的日子,让其本来就不浓郁的头发此刻更显稀疏。对此,他表示无力吐槽:
“尤其是阿里,在电信网络里像是被拔了网线的AI高考生,做了7道题直接摆烂,一换到联通网络立刻化身学霸,不演了,堪比期末考前夜的突击战神,小丫头还有两幅面孔呢?”
(让程序员同学两眼一黑的超时现场)
那么,这三家的思考过程究竟是啥样的呢,有没有更直观的体现?
接下来,我们手动选取了一道AIME试题,看其具体推理、思考过程及表现。结果可见,同样的问题虽然几家最终都取得了正确结果,但火山速度最快、解题步骤也更为清晰明了,还贴心地翻译成了中文,更适合中国宝宝体质。速度上,同样的问题火山用时13.68秒,官方最慢,81秒。
火山引擎
腾讯云
(官方DeepSeek内心os:我不要面子的嘛?)
那么,正确率和速度之外,如果想更全面、综合地测评各厂商API性能,还有哪些维度可以涵盖进去呢?
二、性能、速度、稳定性综合比拼:Deepseek六边形最强辅助出炉
测评一时爽,一直测评火葬场,这部分,我们一致决定:还是抱大腿抄作业,直接搬运个大神的测评吧!
功夫不负有心人,一番5G冲浪,我们扒到了一个硬核实测——由第三方开发者实时检测各云厂商DeepSeek API性能指标的项目,不仅从TTFT(Time To First Token)、TBT(Total Blocking Time)、Throughput (吞吐量)等维度全面测评,堪称测评界的心电图,还贴心地绘制了图表,得来全不费工夫!
附网站地址:https://deepseek.ai-infra.fun/ ,里面有性能指标和实时数据更新呦。有DeepSeek API选型需求的企业可以蹲蹲最新数据,直接Ctrl+C走这份实战指南。
【PS:TTFT指标显示了用户在看到模型输出之前需要等待的时间,TTFT 越小,用户等待时间越短,体验越好。TBT表示生成相邻 token 之间的平均时间间隔,反映了模型生成文本的连续性和流畅度,数值越低表示生成速度越快,用户获得完整回复的时间越短;Throughput (吞吐量)反映了模型的实际生成效率,数值越高表示生成速度越快】
可见,生成速度、效率领域,火山引擎遥遥领先,通过 29.50 tokens/s 的吞吐量实现行业最高效的文本生成能力,较阿里百炼(6.70 tokens/s)快340%。这意味着在生成1000 tokens的文档时,火山引擎仅需34秒,而阿里百炼需要149秒。而33.9ms 的TBT指标,确保相邻token生成间隔控制在人类无感阈值内,避免对话机器人出现"打字机效应"。
其次,高负载下的稳定性保障维度,火山引擎在保证TTFT(首token响应时间)0.46秒的同时,仍能维持超高吞吐量,体现动态资源调度技术的成熟度。相较腾讯知识引擎(TTFT 0.70s时吞吐26.04 tokens/s),火山引擎的单位时间资源利用率提升42%。
为此,我们做出场景优势总结:火山引擎在生成速度、效率、稳定性领域兼具综合优势,在需要实时交互(客服/助手)、长文本生成(创作/代码)等硬核业务场景中,可首选火山方舟,TBT 33.90ms + TTFT 0.46s双管齐下=丝滑流畅。
而另一家权威机构中国软件评测中心人工智能部的评测也佐证了这一趋势:
其指出,各平台正确率区分小,性能的资源效率差异较大,其中,深度思考时间以及吞吐速率的表现大相径庭。火山引擎、纳米AI搜索等平台在既保证了准确率的情况下,吞吐速率也较快。无问芯穹、百度智能云、讯飞开放等平台虽正确率较高,但吞吐速率较低,用户体验受限。以无问芯穹为例(硅基流动平台无响应),吞吐速率仅为9字/秒,尽管能够得到较为准确的答案,但是在使用体验上很是卡顿,甚至会出现截断的情况;POE平台以33.78字/秒的吞吐速率领先,但正确率仅50%。
综合以上来看,火山引擎目前确实是Deepseek最强“六边形战士”辅助。不过,AI战场瞬息万变,从Deepseek的横空出世、弯道超车就能看出来,没有哪家厂商拥有永恒不变的优势地位,同志仍需努力!当然,AI大模型工场也会持续关注行业动向做出更新,为需要的企业、开发者发回“一线电报”。
尾声:
最后,DeepSeek R1的云平台分化现象,本质是AI基础设施能力的一次公开检验,既映射着各厂商在算力基建、工程化能力和生态整合上的实力差距,也暴露出国产AI产业链条中芯片适配、模型优化等关键环节的攻坚难点。未来,云厂商需在算力国产化、数据工程化、生态开放化等方面构筑护城河。
而对用户而言,“橘生淮南”的差异恰是精细化选择的机遇——唯有深入理解技术栈与业务场景的耦合关系,方能真正释放大模型的变革潜力。
不过,值得欣慰的是,当前行业领跑者已开启能力普惠化进程,将技术优势转化为用户体验红利。
以火山引擎为例,其目前正在做拉新活动,畅享DeepSeek R1 和 V3,支持3万RPM和500万TPM不限速,分享即可领tokens!
如果想快速上手deepseek、获得丝滑流畅体验,即刻邀请好友免费领大模型!成功邀请1位新用户,最高双方可得145元代金券,可抵扣3625万tokens,多邀多得不封顶。
对于亟需平衡成本与效能的开发者,这类“先试后买”的体验机会,恰好是理解不同平台技术底座、并在自家业务上试点的绝佳契机。快来邀请你身边的开发者吧!地址:https://www.volcengine.com/activity/deepseek
附文中测评Python脚本,感兴趣的朋友可以自己跑跑,也可以搬走自行调整配置文件和模板快速适配不同评估需求:
git 地址:
https://gitee.com/ai-large-model-factory/evals.git
来源:36kr
通信人家园 (https://www.txrjy.com/)
Powered by C114