通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  一级军士长

注册:2007-10-294
跳转到指定楼层
1#
发表于 2024-10-24 10:06:06 |只看该作者 |倒序浏览

作者|黄楠

编辑|袁斯来

探寻大模型的起源,始于2017年那篇谷歌的《Attention Is All You Need》论文。其造性地提出了具备处理局部和长程依赖关系能力、契合GPU对大规模数据进行并发处理的Transformer架构(以下简称:T架构),一举推动了GPT的问世。

但其盛名之下,不少人也忽略了T架构的两大缺陷:其一,运算机制过度依赖“矩阵乘法”,算力消耗过大;二是单次运算需调用所有计算单元,算力与存储消耗过大。

这意味着,无论是训练或推理,面对大量数据集与长输入序列时,T架构需无数次重复检索大模型权重(记忆体)中已有信息,将新数据与既有数据的相对距离进行逐一比对。这种“逐字逐句翻书本,从封面翻到封底”的处理机制,既赋予了其“精准捕获长距离依赖”的能力,也带来了巨额的算力与存储开销。

在T架构性能表现日趋老化的背景下,一些AI大模型公司开始探索非T架构研发,并在技术、产业、应用与合规层面实现突破。硬氪近日接触到的「陆兮科技」,正是一家专注从零开始搭建自研类脑架构的大模型公司。

「陆兮科技」CTO周芃告诉硬氪,类脑大模型采用了模仿人脑结构和功能的“类脑算法”路线,又称“脑启发算法”路线。与Transformer架构和泛GPT类模型相比,人脑的运算与存储机制效能明显更高。

运算时,人脑采用“稀疏计算”机制,仅需调取与当次计算直接相关的神经元,其余闲置神经元均处于休眠状态。在存储时,人脑无需重复“翻书”,对比新旧数据时只需调用高保真压缩后的记忆体,信息本身则处于“隐状态”中。

“直观来说,T架构驱动的大模型要实现大规模部署,所消耗的算力预计需占满几百甚至上千平米的机房,所消耗的电力需由多做水电站共同驱动。对比之下,人脑完成同样难度的计算,靠我们每天吃进去的米饭、馒头、蔬菜、肉类即可驱动。”周芃解释到。

基于这一思考下,「陆兮科技」提出了“NEURARK类脑架构”,通过复刻人类大脑高保真、轻量化、低功耗、零延迟的运算与存储机制,通过简化底层运算机制,运用“点乘 + 加法”等低能耗运算,来替代“矩阵乘法”的高能耗预算模式。

同时,「陆兮科技」还搭建了与人脑存储模式近似的“隐状态管理”机制,可以在大模型推理过程中,仅需调用记忆体,而无需调用既有数据集的方法,将数据存储占用降至极低。

目前,「陆兮科技」“NEURARK类脑架构”已同信息产业头部国央企达成合作签约,在通用医疗大模型、糖尿+甲乳专病大模型等领域开展共同研发与产品推广。其中,类脑医疗大模型已于国内某中部省份多家三甲医院、医联体网络医院与重点科室实现预部署。

此外公司还同金融、教育、气象、水利、政务、网络安全等基础设施行业的政府单位、国央企与头部厂商也已与其达成合作意向,部分已完成签约。多家智能设备主机厂商、芯片厂商正同「陆兮科技」在积极接洽中,希望在大模型芯片适配、端侧智能操作系统研发、智能设备定制化设计等领域运用类脑架构与类脑大模型。

硬氪了解到,由「陆兮科技」自主研发的类脑大模型,已于今年8月获得国家网信办《生成式人工智能服务备案》,这也是国内首个取得该项备案的自研架构大模型、非Transformer架构大模型和采用“脑启发算法”技术路线的大模型,其非T架构大模型即将正式上线。

来源:36kr

举报本楼

本帖有 1 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2024-11-22 05:45 , Processed in 0.100238 second(s), 16 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部