通信人家园

标题: 这个关于DeepSeek的说法比较靠谱  [查看完整版帖子] [打印本页]

时间:  2025-2-1 16:30
作者: wjhqr     标题: 这个关于DeepSeek的说法比较靠谱

本帖最后由 wjhqr 于 2025-2-1 16:32 编辑

英伟达工程师陈源的观点:
1. DeepSeek在算法和工程方面取得很大突破,使得模型训练和推理(尤其是推理端)的成本和效率都得到巨大提升。

2. 通过降低训练成本,DeepSeek能够提高AI投资的回报率。(至少在短期内)会对主要AI基础设施的提供商和使用者(包括科技、工业和能源等领域巨头)构成很大威胁。

3. “600万美元训练成本”可能存在误导性,因为缺少一些关键细节。

4. DeepSeek利用模型蒸馏技术,依赖现有模型(如 GPT-4o和o1)进行训练。虽然美国政府限制中国使用最先进的GPU,但并未限制对最新模型的使用。各大公司将来也许会停止发布最先进的模型,以防止类似的模型蒸馏,但可能为时已晚。“猫已经完全从袋子里跑出来了”。

5. 如果推理成本足够低并能在电脑和智能手机上流畅运行的话,PC和手机设备制造商将大大受益。就像互联网时代一样,带来更频繁的设备升级换代。

6. 这个进展将极大利好使用AI技术的公司,特别是软件和互联网行业。另外,具有高质量和独特数据的公司会变得越来越重要和有价值。



时间:  2025-2-1 16:47
作者: wjhqr

第4点“DeepSeek利用模型蒸馏技术,依赖现有模型(如 GPT-4o和o1)进行训练”,这个可能是DS如此成功的关键。
通过GPT的API对GPT的海量数据进行蒸馏(也就是提炼),再通过某种算法优化和微调进行训练,形成DeepSeek自己的小模型,这样成本就很低了,而在小模型涉及的范围内达到了和GPT大模型接近的智能。
时间:  2025-2-1 18:17
作者: 狼人克星

wjhqr 发表于 2025-2-1 16:47
第4点“DeepSeek利用模型蒸馏技术,依赖现有模型(如 GPT-4o和o1)进行训练”,这个可能是DS如此成功的关键 ...

只要加一个“可能”
你想放什么谣言都无懈可击。
时间:  2025-2-1 18:38
作者: 客家人

狼人克星 发表于 2025-2-1 18:17
只要加一个“可能”
你想放什么谣言都无懈可击。

  合理分析罢了,不要啥都是谣言。
时间:  2025-2-1 19:19
作者: wjhqr

梁文峰很鸡贼,蒸馏了其它大模型,获取了数据和推理逻辑。利用了opanAI们超强的算力资源为己所用,构建了自己的DS。微软谷歌脸书们很受伤,吃了暗亏,花几千亿买的超大算力为别人做了嫁衣裳。而且被蒸馏走的东西也已经是覆水难收。
也可以说梁文峰很聪明,巧妙借力,四两拨千斤。而且模型蒸馏还不违法,至少目前是这样,虽然违反了相关的服务条款。据说美帝打算将模型蒸馏视为非法,但那是后话了。
时间:  2025-2-1 19:25
作者: wjhqr

当然光有模型蒸馏还远远不够,DeepSeek也有一些自己独到的东西,还是非常牛叉的,这个咱也不懂。
在现有模型的基础上,进一步强化推理能力(辉达的是买不到了,就看菊花的910c何时能顶上),未来前景比较看好。
时间:  2025-2-1 19:37
作者: 狼人克星

客家人 发表于 2025-2-1 18:38
合理分析罢了,不要啥都是谣言。

客总可能今天上厕所没有带纸。
时间:  2025-2-1 20:48
作者: 客家人

狼人克星 发表于 2025-2-1 19:37
客总可能今天上厕所没有带纸。

  你是中专生的骄傲,和中专生一样的认知,啥都是谣言,为了反对而反对,这是小hong粉的特点
时间:  2025-2-1 20:50
作者: 狼人克星

客家人 发表于 2025-2-1 20:48
你是中专生的骄傲,和中专生一样的认知,啥都是谣言,为了反对而反对,这是小hong粉的特点

客总可能拿不到16亿的分红。
时间:  2025-2-1 21:16
作者: 10219459

既然蒸馏真好,那么他们自己不用吗?还是必须找些理由。
时间:  2025-2-1 21:57
作者: 伤心小镇

我不懂AI,但是美帝常干的玩不过就栽赃抹黑的套路,我懂。
时间:  2025-2-2 01:02
作者: 不吹不黑

厉害了!!
时间:  2025-2-2 20:25
作者: xhy133

了解
时间:  2025-2-3 17:51
作者: oooooooo

wjhqr 发表于 2025-2-1 19:25
当然光有模型蒸馏还远远不够,DeepSeek也有一些自己独到的东西,还是非常牛叉的,这个咱也不懂。
在现有模 ...

辉达,难怪
时间:  2025-2-3 20:38
作者: visioner

wjhqr 发表于 2025-2-1 19:19
梁文峰很鸡贼,蒸馏了其它大模型,获取了数据和推理逻辑。利用了opanAI们超强的算力资源为己所用,构建了自 ...

*,在DeepSeeker-v3出来之前,美帝的AI大模型公司自己就不会蒸馏出更好的模型?
时间:  2025-2-3 22:46
作者: wqfreebird

visioner 发表于 2025-2-3 20:38
*,在DeepSeeker-v3出来之前,美帝的AI大模型公司自己就不会蒸馏出更好的模型?

总有人给美国洗地,总认为自己的同胞不行。真是邪门了。
时间:  2025-2-4 17:09
作者: 清河人

大批用了昇腾




通信人家园 (https://www.txrjy.com/) Powered by C114