通信人家园

标题: 中国电信星辰AI大模型全面开源的意义及策略建议  [查看完整版帖子] [打印本页]

时间:  2024-1-17 09:22
作者: chzh4719     标题: 中国电信星辰AI大模型全面开源的意义及策略建议

崔立鹏 天翼智库

640?wx_fmt=png
国内AI大模型开源情况对标分析

2023年以来,在ChatGPT爆火的带动下,我国大模型产业迎来了一波发展高潮。2023年2月Meta开源大模型LLaMA后,全球头部厂商和创业公司纷纷加入开源浪潮中,智谱AI、阿里巴巴、百川智能等国内企业相继发布开源大模型,大模型未来竞争格局正在发生变化。截至目前不完全统计,国内对外宣布开源的各类大模型数量已达15个,如表1所示。

640?wx_fmt=png
表1 国内已发布开源大模型情况统计

1.  国内开源大模型类型分为5种,以大语言、多模态模型为主
目前国内开源大模型包括大语言模型、多模态大模型、向量大模型、编程大模型和AI Agent框架/模型等5类,总体来看以大语言模型及多模态大模型为主。其中智谱AI、阿里巴巴的开源大模型均开源了4种大模型,其它大多数企业或者机构开源的模型都是1-2类左右。

2. 国内开源大模型参数规模以60-70亿为主,最高超过千亿参数
目前国内模型开源的参数规模分为五类:7B、13B、34B、65B、100B。国内大多数的开源大模型的参数量基本都在60-70亿参数范围。目前国产开源大模型的最高参数规模为浪潮信息的“源2.0”大模型,最大参数规模为102B,达到千亿级,赶超Meta的开源大模型LLaMA2的700亿参数。

3. 从开源成熟度来看,国内大模型开源训练数据及细节的占比较少
中国信通院云计算开源产业联盟发布的《可信开源人工智能大模型案例汇编》中指出,模型框架、模型代码、模型参数、训练数据四个方面是衡量其开源成熟度的重要评定等级。入选案例汇编的开源大模型中,仅有22% 的大模型对其训练数据进行开源,方便用户对模型进行微调和二次开发,其中仅有部分大模型对外公布其训练细节,方便用户研究大模型训练过程以及进行模型继续训练。

640?wx_fmt=png
大模型开源将成为大模型产业发展的关键变量,加速产业进程

模型开源将推动实现大模型产业发展的供给侧、需求侧双向发力,对大模型基础设施运营、技术迭代创新、开放生态建设带来积极影响,将加速推动大模型产业化应用,助力产业升级:

1. 从企业需求侧来看,开源大模型更有利于企业定制化并保障数据隐私
相比闭源模型的“黑盒”开发,开源大模型允许企业开发人员在模型的基础上针对个性场景进行深度的定制开发,定向训练数据,也可以针对某些主题进行过滤,减少模型体量和数据的训练成本。如基于6B-7B的小尺寸开源大模型,能够让模型更快试水、验证,并进行应用开发。此外大模型的开源使得企业可以将自己的数据集在大模型上进行训练,同时做到对数据的控制,保护企业数据隐私。

2. 从模型供给侧来看,大模型开源有利于大模型提供商加速技术迭代与创新
开源大模型鼓励全球开发者社区的参与和贡献,这种集体智慧能够加速技术的迭代和创新,据不完全统计,LLaMA2开源后,国内就涌现出了10余个开源行业大模型。此外开源代码使用户能够审查模型的工作原理和决策过程,从而提高大模型的透明度和可信赖性。

3. 从算力供给侧来看,大模型开源将为算力运营商带来巨大的市场机遇
算力总需求=场景数*单场景算力需求*用户数。虽然开源大模型节省了企业训练阶段的算力消耗,但据统计达到一定用户量级的应用,推理阶段的算力消耗为训练阶段的5-10倍。大模型开源以及其背后的开放生态,将带来广泛渗透的多场景大模型应用以及更大的算力消耗,为算力运营商培育“模型越强、应用越多、用户越广、算力越大”的市场飞轮。

640?wx_fmt=png
星辰AI大模型开源立足于国资央企新使命新定位

中国电信作为具备AI研发能力与智算服务能力的大模型领域央企主力军,此次星辰AI大模型的开源具有重要意义。通过持续开源基础大模型,将广泛地赋能更多的用户场景加速应用落地,联合各类合作伙伴打造大模型信创产业体系,是中国电信立足于新时代新征程国资央企新使命新定位,在新发展格局中发挥科技创新、产业控制、安全支撑作用的重要成果。

1. 基于开源大模型社区生态,促进国资央企特色场景应用落地

星辰AI大模型目前拥有超过 20GB 主流意识形态数据,在企业经营分析、政务、公文写作等应用场景相比其他大语言模型具备差异化竞争力,未来可基于开源大模型社区生态,一方面加速插件、Prompt、AI应用等生态繁荣,培育星辰AI大模型在通用场景的公众用户数量与活跃度,另一方面促进星辰AI大模型在政务、医保等国资央企特色场景的行业应用落地。

2. 围绕开源大模型打造开放产业生态,打造大模型信创产业体系

星辰AI大模型目前支持基于昇腾的Atlas 300I Pro推理卡运行推理任务,未来将以此为契机通过开源模型打造开放产业生态,吸引更多国产算力卡、模型框架、数据库、应用平台与行业软件等合作伙伴加入,共同打造大模型生态信创体系,夯实央企大模型主力军作用,发挥产业控制作用,维护网信安全的使命责任。

640?wx_fmt=png
星辰开源大模型发展策略建议

1. 持续提升模型能力,拓展开源大模型类型多样性

持续迭代开源大模型,不断提升模型规模和数据规模,控制模型训练、推理精度,坚持“模型开源-社区反馈-技术优化”的正向循环,最大程度提升模型研发效能,实现在自然语言理解、知识、代码、数学、推理等12个测评中超越Llama2-13B等主流开源模型的突破;拓展开源大模型的类型多样性,如多模态大模型、编程大模型、向量大模型、Agent大模型等,打造星辰开源大模型矩阵,持续探索大模型具身智能,支持智能感知认知决策等能力。

2. 持续提升模型能力,拓展开源大模型类型多样性

短期来看,跟踪基于星辰AI开源大模型为基座进行二次开发的行业大模型、领域大模型项目,如果在Gitee、Github社区获得较高星级与关注度,可给予一定的数据与算力资源支持,共同推进有影响力的行业应用落地;长期来看,对标阿里魔搭ModelScope构建星辰AI开源社区,凝聚优秀开发者加入,共享模型、参数、数据集等,针对多个细分领域沉淀专业数据集及细分领域模型,应用于长尾细分场景应用落地。

3. 加强开源配套设施建设,构建大模型技术开源体系

一方面加强开源数据平台、大模型开发工具、大模型训练部署平台与向量数据库等基础配套设施建设,另一方面围绕微服务框架开源项目、AIGC应用开源项目、数据工具开源项目、评测开源系统等构建星辰AI大模型技术开源体系,降低AI大模型使用门槛,加速基础大模型技术迭代创新与应用落地,持续繁荣星辰开源大模型生态。



附件: 640?wx_fmt=png (2024-1-17 09:21, 894 Bytes) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NjEzOTUyfDUzZWY0ZWI4fDE3MzIzNzkwMTN8MHww

附件: 640?wx_fmt=png (2024-1-17 09:21, 38.24 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NjEzOTUzfDUxMDQ0MTczfDE3MzIzNzkwMTN8MHww

附件: 640?wx_fmt=png (2024-1-17 09:21, 1.05 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NjEzOTU0fDNjNmE5YzQ3fDE3MzIzNzkwMTN8MHww

附件: 640?wx_fmt=png (2024-1-17 09:21, 1.13 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NjEzOTU1fGVjNDY0M2E2fDE3MzIzNzkwMTN8MHww

附件: 640?wx_fmt=png (2024-1-17 09:21, 1004 Bytes) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NjEzOTU2fDE2ZDk2MjJifDE3MzIzNzkwMTN8MHww
时间:  2024-1-17 09:41
作者: kod

都是LLAMA套壳?
时间:  2024-1-17 10:14
作者: laozhu

套壳
时间:  2024-3-15 21:20
作者: neville97202

套谁家?




通信人家园 (https://www.txrjy.com/) Powered by C114