查看: 1597|回复: 3

大模型发展动态周报 [复制链接]

无名小足

军衔等级：

少将

注册：2007-3-15 点赞数

288

电梯直达

1^# 大中小

发表于 2023-12-13 14:12:17 |只看该作者 |倒序浏览

一项新研究“Mamba”为大模型性能提升带来期待。在语言建模方面，与类似规模的Transformer相比，Mamba具有5倍的生成吞吐量，而且 Mamba-3B的质量与两倍于其规模的Transformer相当。

通用实时翻译器正在成为技术现实，Meta公司升级多模态人工智能翻译模型SeamlessM4T为“Seamless Communication(无缝沟通)”模型，让对话翻译更加自然和富有表现力。谷歌也推出了名为 Translatotron 3的新AI模型，可以实现语音对语音的同声传译。

阿里云开源通义千问720亿参数模型Qwen-72B，其性能超越开源标杆Llama2-70B和大部分商用闭源模型。通义千问共开源4款大语言模型，以及视觉理解、音频理解两款多模态大模型，实现了“全尺寸、全模态”的开源。

谷歌旗下DeepMind发布AI工具GNoME，短时间内发现220万种新晶体，相当于人类科学家800年的实验产出。GNoME极大地提高了科研的速度、效率和准确性，在材料学领域展现出巨大潜力。

联想集团王传东提出2024年即将开启AI PC元年。Canalys预测，2024年，具备AI功能的个人电脑总出货量将取得19%左右的市场份额。

1.【技术】新架构Mamba五倍吞吐量，性能全面包围Transformer

最近，一项名为「Mamba」的研究提出了一种新的架构 ——「选择性状态空间模型(selective state space model)」。作为通用序列模型的骨干，Mamba在语言、音频和基因组学等多种模态中都达到了SOTA性能。在语言建模方面，无论是预训练还是下游评估，他们的Mamba-3B模型都优于同等规模的Transformer模型，并能与两倍于其规模的Transformer 模型相媲美。作者表示，「Mamba」还可以随上下文长度的增加实现线性扩展，其性能在实际数据中可提高到百万token长度序列，并实现5倍的推理吞吐量提升。

天翼智库：Transformer 架构存在一个短板：自注意力层无法根据上下文长度增加实现线性扩展，而Mamba通过有选择地考虑相关性，在实现线性扩展的同时降低计算复杂度，减少大模型训练成本。Mamba架构不仅可推动电信优化TeleChat大语言模型，还可跨领域研究序列模型，例如密码学模型等，未来可以应用在密钥的设计。

2.【产品】Meta 推出“无缝沟通”AI 翻译模型

12月4日，Meta 公司更新了今年8月推出的多模态人工智能翻译模型 SeamlessM4T，该模型“v2”架构新增了“SeamlessExpressive”、“SeamlessStreaming”功能，可以将说话者语气转移到翻译后的语音中，还能在说话者讲话的同时开始翻译，时延不到2秒。Meta 将其称之为“Seamless Communication（无缝沟通）”模型，能够让对话翻译更加自然和富有表现力。

天翼智库：Meta表示，Seamless取得的突破表明，通用实时翻译器正在成为技术现实。12月2日，谷歌也推出了名为 Translatotron 3的新AI模型，可以实现语音对语音的同声传译。Seamless和Translatotron 3的突破或将导致机器辅助跨语言交流的实现方式发生巨大变化，成为大模型C端爆款应用，在跨语言交流、教育学习、旅游出行等各个方面发挥重要作用。

3.【产品】阿里云：通义千问720亿参数大模型开源

12月1日，阿里云宣布开源通义千问 720 亿参数模型 Qwen-72B、18 亿参数模型 Qwen-1.8B 及音频大模型 Qwen-Audio，目前已上线阿里魔搭社区。官方表示，Qwen-72B 在 10个权威基准测评创下开源模型最优成绩，成为业界最强开源大模型，性能超越开源标杆Llama2-70B和大部分商用闭源模型。至此，通义千问共开源18亿、70亿、140亿、720亿参数的4款大语言模型，以及视觉理解、音频理解两款多模态大模型，实现了“全尺寸、全模态”的开源。

天翼智库：凭借开源的大模型产品、算力底座、多元应用场景、通过社区不断扩大的开发者规模、工具链及智能化平台、开放的创新生态等，阿里云正在形成一条具有竞争力的“高质量开源基础大模型－大模型优化-AI应用创新”的商业化落地发展路径。中国电信同样具备云计算、算力等底层资源优势，并宣布今年底逐步开源星辰大模型，有必要借鉴阿里经验，基于开源大模型进一步拓展产业生态，从而促进天翼云发展及大模型产业落地。

4.【应用】DeepMind推出AI工具GNoME，预测220万种新晶体

11月30日消息，谷歌旗下DeepMind在《自然》上发布了AI工具GNoME，并介绍了其在材料科学上的相关应用。据悉，DeepMind使用GNoME发现220万种新晶体，相当于人类科学家800年的实验产出，其中38万种新晶体具备稳定的结构，有望应用在电池或是超导体等方面。在GNoME预测的新稳定结构中，有736种是和其他科学家独立发现的稳定材料是一致的，这证明了GNoME的晶体预测在现实中的准确性与可行性。利用GNoME，科学家还发现了528种潜在的锂离子导体。

天翼智库：DeepMind GNoME在材料领域的应用，证明AI工具确实已经极大地提高了科研的速度、效率和准确性。可以预见，不久的将来，AI大模型将会进入更多科学研究领域。目前我国高校普遍面临算力资源不足的问题，有调研显示，当前仅约8.4%的高校建设了校级算力平台，建议中国电信把握机会，利用天翼云智能计算平台，布局高校算力市场。

5.【资本】开源类ChatGPT平台Mistral AI，再获巨额融资

12月6日消息，开源类ChatGPT平台Mistral AI获得4.5亿欧元（近35亿元）融资，估值近20亿美元（142亿元）。本次由英伟达、 Salesforce等投资。Mistral AI的开源大语言模型Mistral 7B主打参数小、能耗低、性能强等特点，并且允许商业化。支持生成文本/代码、数据微调、总结内容等，目前在github有4500颗星。

天翼智库：Mistral AI以轻量、开源的特点在欧洲市场上受到欢迎。轻量、性能强使得企业应用门槛较低，能够帮助企业迅速将大模型商业化。开源的特性表明其数据和模型的使用都完全曝光，在一定程度上迎合对新技术持保守态度的欧洲企业。国内大模型未来若想进军海外，除了需要技术过硬之外，开源化、定制化、数据安全、成本控制等都将是必须重点考虑的因素。

6.【观点】联想王传东：AI PC是打开大模型时代的第一终端

联想集团副总裁、中国区首席市场官王传东11月29日在36氪WISE2023大会主题论坛上提出，2024年即将开启 AI PC元年。AI PC将成为打开大模型时代的第一终端，提供个性创作、秘书服务、设备管家等服务，为人们带来划时代的新体验。

天翼智库：PC由于在生产力、存储等方面的特性达到了大模型私人助理的入门场景，可以代替人们完成日常工作任务。但考虑到成本、算力、个性化等因素，AI PC想要完成更加复杂定制任务则会有些吃力，而这些正是云电脑的优势所在。中国电信天翼云在2023年上半年DaaS市场中蝉联第一，大模型+DaaS或将成为下一个发力点。

图片
每周快讯

1.【政策】欧盟：AI法案或被搁置，基础模型监管是矛盾焦点

12月1日，由于难以就监管ChatGPT等系统达成一致，欧盟《AI法案》面临被搁置的风险。一些专家和立法者提出了分级方法来监管基础模型。欧盟将基础模型定义为拥有超过4500万用户的模型。ChatGPT被定义为非常有能力的基础模型，此类基础模型需承担额外的义务，包括定期审查以发现潜在漏洞。然而，一些立法者认为，那些规模较小的模型可能具备同样程度的风险。若立法者无法年底前就《AI法案》达成一致，该法案可能会被搁置。

2.【产品】超越GPT-4！谷歌发布最强多模态大模型—Gemini

12月7日凌晨，谷歌在官网发布了全新最强多模态大模型——Gemini。据悉，Gemini有Ultra、Pro、Nano三个版本，可自动生成文本、代码、总结内容等，并能理解图片、音频和视频内容。在MMLU、DROP 、HellaSwag、GSM8K等主流评测中，Gemini Ultra的能力全面超越了OpenAI的GPT-4和GPT-4 V。值得一提的是Gemini Ultra在MMLU中的得分为90%，这也是第一个在MMLU上超越人类专家的大模型。

3.【产业】Meta和IBM联合50多家机构成立AI联盟

12月5日，Meta和IBM联手50多家公司和组织创建“人工智能联盟”，共享技术并降低风险，旨在增加开源AI模型的数量，负责研发含安全和安保工具的AI技术。联盟还将与学术研究人员合作开发新硬件。参与方包括英特尔、甲骨文、康奈尔大学和美国国家科学基金会等知名机构，也包括Hugging Face和Stability AI等AI创业公司。OpenAI未列为联盟参加者。

4.【应用】字节大模型产品首出海，推出“ChitChop”

据悉，字节旗下POLIGON公司11月最新上线了一款名为“ChitChop”的大模型产品，在海外Google Play和App Store均可下载，网页版也已经上线。ChitChop是一个基于大模型的AI工具合集，包括包括AI创作、AI绘画、娱乐、AI学习、工作、生活等6大使用场景，每个场景内包含有多达10个以上的AI工具，可以为用户提供多达200+的智能机器人服务。

本主题由版主或管理员于 2023-12-13 14:12 审核通过

0 举报本楼

本帖有 3 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图

GMT+8, 2024-11-24 10:17 , Processed in 0.221842 second(s), 17 queries , Gzip On.

Discuz Licensed

大模型发展动态周报 [复制链接]

爱心徽章，06年为希望小学奉献爱心纪念徽章

爱心徽章，07年为希望小学奉献爱心纪念徽章

爱心徽章，2010年为家园助学活动奉献爱心纪念徽章

		自动登录	找回密码
密码			注册