通信人家园

标题: 这个关于DeepSeek的说法比较靠谱 [查看完整版帖子] [打印本页]

时间: 2025-2-1 16:30

作者: wjhqr 标题: 这个关于DeepSeek的说法比较靠谱

本帖最后由 wjhqr 于 2025-2-1 16:32 编辑

英伟达工程师陈源的观点：
1. DeepSeek在算法和工程方面取得很大突破，使得模型训练和推理（尤其是推理端）的成本和效率都得到巨大提升。

2. 通过降低训练成本，DeepSeek能够提高AI投资的回报率。（至少在短期内）会对主要AI基础设施的提供商和使用者（包括科技、工业和能源等领域巨头）构成很大威胁。

3. “600万美元训练成本”可能存在误导性，因为缺少一些关键细节。

4. DeepSeek利用模型蒸馏技术，依赖现有模型（如 GPT-4o和o1）进行训练。虽然美国政府限制中国使用最先进的GPU，但并未限制对最新模型的使用。各大公司将来也许会停止发布最先进的模型，以防止类似的模型蒸馏，但可能为时已晚。“猫已经完全从袋子里跑出来了”。

5. 如果推理成本足够低并能在电脑和智能手机上流畅运行的话，PC和手机设备制造商将大大受益。就像互联网时代一样，带来更频繁的设备升级换代。

6. 这个进展将极大利好使用AI技术的公司，特别是软件和互联网行业。另外，具有高质量和独特数据的公司会变得越来越重要和有价值。

时间: 2025-2-1 16:47

作者: wjhqr

第4点“DeepSeek利用模型蒸馏技术，依赖现有模型（如 GPT-4o和o1）进行训练”，这个可能是DS如此成功的关键。
通过GPT的API对GPT的海量数据进行蒸馏（也就是提炼），再通过某种算法优化和微调进行训练，形成DeepSeek自己的小模型，这样成本就很低了，而在小模型涉及的范围内达到了和GPT大模型接近的智能。

时间: 2025-2-1 18:17

作者: 狼人克星

wjhqr 发表于 2025-2-1 16:47
第4点“DeepSeek利用模型蒸馏技术，依赖现有模型（如 GPT-4o和o1）进行训练”，这个可能是DS如此成功的关键 ...

只要加一个“可能”
你想放什么谣言都无懈可击。

时间: 2025-2-1 18:38

作者: 客家人

狼人克星发表于 2025-2-1 18:17
只要加一个“可能”
你想放什么谣言都无懈可击。

合理分析罢了，不要啥都是谣言。

时间: 2025-2-1 19:19

作者: wjhqr

梁文峰很鸡贼，蒸馏了其它大模型，获取了数据和推理逻辑。利用了opanAI们超强的算力资源为己所用，构建了自己的DS。微软谷歌脸书们很受伤，吃了暗亏，花几千亿买的超大算力为别人做了嫁衣裳。而且被蒸馏走的东西也已经是覆水难收。
也可以说梁文峰很聪明，巧妙借力，四两拨千斤。而且模型蒸馏还不违法，至少目前是这样，虽然违反了相关的服务条款。据说美帝打算将模型蒸馏视为非法，但那是后话了。

时间: 2025-2-1 19:25

作者: wjhqr

当然光有模型蒸馏还远远不够，DeepSeek也有一些自己独到的东西，还是非常牛叉的，这个咱也不懂。
在现有模型的基础上，进一步强化推理能力（辉达的是买不到了，就看菊花的910c何时能顶上），未来前景比较看好。

时间: 2025-2-1 19:37

作者: 狼人克星

客家人发表于 2025-2-1 18:38
合理分析罢了，不要啥都是谣言。

客总可能今天上厕所没有带纸。

时间: 2025-2-1 20:48

作者: 客家人

狼人克星发表于 2025-2-1 19:37
客总可能今天上厕所没有带纸。

你是中专生的骄傲，和中专生一样的认知，啥都是谣言，为了反对而反对，这是小hong粉的特点

时间: 2025-2-1 20:50

作者: 狼人克星

客家人发表于 2025-2-1 20:48
你是中专生的骄傲，和中专生一样的认知，啥都是谣言，为了反对而反对，这是小hong粉的特点

客总可能拿不到16亿的分红。

时间: 2025-2-1 21:16

作者: 10219459

既然蒸馏真好，那么他们自己不用吗？还是必须找些理由。

时间: 2025-2-1 21:57

作者: 伤心小镇

我不懂AI，但是美帝常干的玩不过就栽赃抹黑的套路，我懂。

时间: 2025-2-2 01:02

作者: 不吹不黑

厉害了！！

时间: 2025-2-2 20:25

作者: xhy133

了解

时间: 2025-2-3 17:51

作者: oooooooo

wjhqr 发表于 2025-2-1 19:25
当然光有模型蒸馏还远远不够，DeepSeek也有一些自己独到的东西，还是非常牛叉的，这个咱也不懂。
在现有模 ...

辉达，难怪

时间: 2025-2-3 20:38

作者: visioner

wjhqr 发表于 2025-2-1 19:19
梁文峰很鸡贼，蒸馏了其它大模型，获取了数据和推理逻辑。利用了opanAI们超强的算力资源为己所用，构建了自 ...

*，在DeepSeeker-v3出来之前，美帝的AI大模型公司自己就不会蒸馏出更好的模型？

时间: 2025-2-3 22:46

作者: wqfreebird

visioner 发表于 2025-2-3 20:38
*，在DeepSeeker-v3出来之前，美帝的AI大模型公司自己就不会蒸馏出更好的模型？

总有人给美国洗地，总认为自己的同胞不行。真是邪门了。

时间: 2025-2-4 17:09

作者: 清河人

大批用了昇腾

通信人家园 (https://www.txrjy.com/)