通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  少将

注册:2007-3-15288
跳转到指定楼层
1#
发表于 2023-12-13 14:12:17 |只看该作者 |倒序浏览
一项新研究“Mamba”为大模型性能提升带来期待。在语言建模方面,与类似规模的Transformer相比,Mamba具有5倍的生成吞吐量,而且 Mamba-3B的质量与两倍于其规模的Transformer相当。

通用实时翻译器正在成为技术现实,Meta公司升级多模态人工智能翻译模型SeamlessM4T为“Seamless Communication(无缝沟通)”模型,让对话翻译更加自然和富有表现力。谷歌也推出了名为 Translatotron 3的新AI模型,可以实现语音对语音的同声传译。

阿里云开源通义千问720亿参数模型Qwen-72B,其性能超越开源标杆Llama2-70B和大部分商用闭源模型。通义千问共开源4款大语言模型,以及视觉理解、音频理解两款多模态大模型,实现了“全尺寸、全模态”的开源。

谷歌旗下DeepMind发布AI工具GNoME,短时间内发现220万种新晶体,相当于人类科学家800年的实验产出。GNoME极大地提高了科研的速度、效率和准确性,在材料学领域展现出巨大潜力。

联想集团王传东提出2024年即将开启AI PC元年。Canalys预测,2024年,具备AI功能的个人电脑总出货量将取得19%左右的市场份额。

1.【技术】新架构Mamba五倍吞吐量,性能全面包围Transformer

最近,一项名为「Mamba」的研究提出了一种新的架构 ——「选择性状态空间模型(selective state space model)」。作为通用序列模型的骨干,Mamba在语言、音频和基因组学等多种模态中都达到了SOTA性能。在语言建模方面,无论是预训练还是下游评估,他们的Mamba-3B模型都优于同等规模的Transformer模型,并能与两倍于其规模的Transformer 模型相媲美。作者表示,「Mamba」还可以随上下文长度的增加实现线性扩展,其性能在实际数据中可提高到百万token长度序列,并实现5倍的推理吞吐量提升。

天翼智库:Transformer 架构存在一个短板:自注意力层无法根据上下文长度增加实现线性扩展,而Mamba通过有选择地考虑相关性,在实现线性扩展的同时降低计算复杂度,减少大模型训练成本。Mamba架构不仅可推动电信优化TeleChat大语言模型,还可跨领域研究序列模型,例如密码学模型等,未来可以应用在密钥的设计。

2.【产品】Meta 推出“无缝沟通”AI 翻译模型

12月4日,Meta 公司更新了今年8月推出的多模态人工智能翻译模型 SeamlessM4T,该模型“v2”架构新增了“SeamlessExpressive”、“SeamlessStreaming”功能,可以将说话者语气转移到翻译后的语音中,还能在说话者讲话的同时开始翻译,时延不到2秒。Meta 将其称之为“Seamless Communication(无缝沟通)”模型,能够让对话翻译更加自然和富有表现力。

天翼智库:Meta表示,Seamless取得的突破表明,通用实时翻译器正在成为技术现实。12月2日,谷歌也推出了名为 Translatotron 3的新AI模型,可以实现语音对语音的同声传译。Seamless和Translatotron 3的突破或将导致机器辅助跨语言交流的实现方式发生巨大变化,成为大模型C端爆款应用,在跨语言交流、教育学习、旅游出行等各个方面发挥重要作用。

3.【产品】阿里云:通义千问720亿参数大模型开源

12月1日,阿里云宣布开源通义千问 720 亿参数模型 Qwen-72B、18 亿参数模型 Qwen-1.8B 及音频大模型 Qwen-Audio,目前已上线阿里魔搭社区。官方表示,Qwen-72B 在 10个权威基准测评创下开源模型最优成绩,成为业界最强开源大模型,性能超越开源标杆Llama2-70B和大部分商用闭源模型。至此,通义千问共开源18亿、70亿、140亿、720亿参数的4款大语言模型,以及视觉理解、音频理解两款多模态大模型,实现了“全尺寸、全模态”的开源。

天翼智库:凭借开源的大模型产品、算力底座、多元应用场景、通过社区不断扩大的开发者规模、工具链及智能化平台、开放的创新生态等,阿里云正在形成一条具有竞争力的“高质量开源基础大模型-大模型优化-AI应用创新”的商业化落地发展路径。中国电信同样具备云计算、算力等底层资源优势,并宣布今年底逐步开源星辰大模型,有必要借鉴阿里经验,基于开源大模型进一步拓展产业生态,从而促进天翼云发展及大模型产业落地。

4.【应用】DeepMind推出AI工具GNoME,预测220万种新晶体

11月30日消息,谷歌旗下DeepMind在《自然》上发布了AI工具GNoME,并介绍了其在材料科学上的相关应用。据悉,DeepMind使用GNoME发现220万种新晶体,相当于人类科学家800年的实验产出,其中38万种新晶体具备稳定的结构,有望应用在电池或是超导体等方面。在GNoME预测的新稳定结构中,有736种是和其他科学家独立发现的稳定材料是一致的,这证明了GNoME的晶体预测在现实中的准确性与可行性。利用GNoME,科学家还发现了528种潜在的锂离子导体。

天翼智库:DeepMind GNoME在材料领域的应用,证明AI工具确实已经极大地提高了科研的速度、效率和准确性。可以预见,不久的将来,AI大模型将会进入更多科学研究领域。目前我国高校普遍面临算力资源不足的问题,有调研显示,当前仅约8.4%的高校建设了校级算力平台,建议中国电信把握机会,利用天翼云智能计算平台,布局高校算力市场。

5.【资本】开源类ChatGPT平台Mistral AI,再获巨额融资

12月6日消息,开源类ChatGPT平台Mistral AI获得4.5亿欧元(近35亿元)融资,估值近20亿美元(142亿元)。本次由英伟达、 Salesforce等投资。Mistral AI的开源大语言模型Mistral 7B主打参数小、能耗低、性能强等特点,并且允许商业化。支持生成文本/代码、数据微调、总结内容等,目前在github有4500颗星。

天翼智库:Mistral AI以轻量、开源的特点在欧洲市场上受到欢迎。轻量、性能强使得企业应用门槛较低,能够帮助企业迅速将大模型商业化。开源的特性表明其数据和模型的使用都完全曝光,在一定程度上迎合对新技术持保守态度的欧洲企业。国内大模型未来若想进军海外,除了需要技术过硬之外,开源化、定制化、数据安全、成本控制等都将是必须重点考虑的因素。

6.【观点】联想王传东:AI PC是打开大模型时代的第一终端

联想集团副总裁、中国区首席市场官王传东11月29日在36氪WISE2023大会主题论坛上提出,2024年即将开启 AI PC元年。AI PC将成为打开大模型时代的第一终端,提供个性创作、秘书服务、设备管家等服务,为人们带来划时代的新体验。

天翼智库:PC由于在生产力、存储等方面的特性达到了大模型私人助理的入门场景,可以代替人们完成日常工作任务。但考虑到成本、算力、个性化等因素,AI PC想要完成更加复杂定制任务则会有些吃力,而这些正是云电脑的优势所在。中国电信天翼云在2023年上半年DaaS市场中蝉联第一,大模型+DaaS或将成为下一个发力点。

图片
每周快讯

1.【政策】欧盟:AI法案或被搁置,基础模型监管是矛盾焦点

12月1日,由于难以就监管ChatGPT等系统达成一致,欧盟《AI法案》面临被搁置的风险。一些专家和立法者提出了分级方法来监管基础模型。欧盟将基础模型定义为拥有超过4500万用户的模型。ChatGPT被定义为非常有能力的基础模型,此类基础模型需承担额外的义务,包括定期审查以发现潜在漏洞。然而,一些立法者认为,那些规模较小的模型可能具备同样程度的风险。若立法者无法年底前就《AI法案》达成一致,该法案可能会被搁置。

2.【产品】超越GPT-4!谷歌发布最强多模态大模型—Gemini

12月7日凌晨,谷歌在官网发布了全新最强多模态大模型——Gemini。据悉,Gemini有Ultra、Pro、Nano三个版本,可自动生成文本、代码、总结内容等,并能理解图片、音频和视频内容。在MMLU、DROP 、HellaSwag、GSM8K等主流评测中,Gemini Ultra的能力全面超越了OpenAI的GPT-4和GPT-4 V。值得一提的是Gemini Ultra在MMLU中的得分为90%,这也是第一个在MMLU上超越人类专家的大模型。

3.【产业】Meta和IBM联合50多家机构成立AI联盟

12月5日,Meta和IBM联手50多家公司和组织创建“人工智能联盟”,共享技术并降低风险,旨在增加开源AI模型的数量,负责研发含安全和安保工具的AI技术。联盟还将与学术研究人员合作开发新硬件。参与方包括英特尔、甲骨文、康奈尔大学和美国国家科学基金会等知名机构,也包括Hugging Face和Stability AI等AI创业公司。OpenAI未列为联盟参加者。

4.【应用】字节大模型产品首出海,推出“ChitChop”

据悉,字节旗下POLIGON公司11月最新上线了一款名为“ChitChop”的大模型产品,在海外Google Play和App Store均可下载,网页版也已经上线。ChitChop是一个基于大模型的AI工具合集,包括包括AI创作、AI绘画、娱乐、AI学习、工作、生活等6大使用场景,每个场景内包含有多达10个以上的AI工具,可以为用户提供多达200+的智能机器人服务。

举报本楼

本帖有 3 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2024-11-22 07:39 , Processed in 0.176895 second(s), 17 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部