查看: 447|回复: 1

国内首个自研架构类脑大模型，「陆兮科技」已通过《生成式人工智能服务备案》｜早期项目 [复制链接]

see122

军衔等级：

一级军士长

注册：2007-10-29 点赞数

4

电梯直达

1^# 大中小

发表于 2024-10-24 10:06:06 |只看该作者 |倒序浏览

作者｜黄楠

编辑｜袁斯来

探寻大模型的起源，始于2017年那篇谷歌的《Attention Is All You Need》论文。其造性地提出了具备处理局部和长程依赖关系能力、契合GPU对大规模数据进行并发处理的Transformer架构（以下简称：T架构），一举推动了GPT的问世。

但其盛名之下，不少人也忽略了T架构的两大缺陷：其一，运算机制过度依赖“矩阵乘法”，算力消耗过大；二是单次运算需调用所有计算单元，算力与存储消耗过大。

这意味着，无论是训练或推理，面对大量数据集与长输入序列时，T架构需无数次重复检索大模型权重（记忆体）中已有信息，将新数据与既有数据的相对距离进行逐一比对。这种“逐字逐句翻书本，从封面翻到封底”的处理机制，既赋予了其“精准捕获长距离依赖”的能力，也带来了巨额的算力与存储开销。

在T架构性能表现日趋老化的背景下，一些AI大模型公司开始探索非T架构研发，并在技术、产业、应用与合规层面实现突破。硬氪近日接触到的「陆兮科技」，正是一家专注从零开始搭建自研类脑架构的大模型公司。

「陆兮科技」CTO周芃告诉硬氪，类脑大模型采用了模仿人脑结构和功能的“类脑算法”路线，又称“脑启发算法”路线。与Transformer架构和泛GPT类模型相比，人脑的运算与存储机制效能明显更高。

运算时，人脑采用“稀疏计算”机制，仅需调取与当次计算直接相关的神经元，其余闲置神经元均处于休眠状态。在存储时，人脑无需重复“翻书”，对比新旧数据时只需调用高保真压缩后的记忆体，信息本身则处于“隐状态”中。

“直观来说，T架构驱动的大模型要实现大规模部署，所消耗的算力预计需占满几百甚至上千平米的机房，所消耗的电力需由多做水电站共同驱动。对比之下，人脑完成同样难度的计算，靠我们每天吃进去的米饭、馒头、蔬菜、肉类即可驱动。”周芃解释到。

基于这一思考下，「陆兮科技」提出了“NEURARK类脑架构”，通过复刻人类大脑高保真、轻量化、低功耗、零延迟的运算与存储机制，通过简化底层运算机制，运用“点乘 + 加法”等低能耗运算，来替代“矩阵乘法”的高能耗预算模式。

同时，「陆兮科技」还搭建了与人脑存储模式近似的“隐状态管理”机制，可以在大模型推理过程中，仅需调用记忆体，而无需调用既有数据集的方法，将数据存储占用降至极低。

目前，「陆兮科技」“NEURARK类脑架构”已同信息产业头部国央企达成合作签约，在通用医疗大模型、糖尿+甲乳专病大模型等领域开展共同研发与产品推广。其中，类脑医疗大模型已于国内某中部省份多家三甲医院、医联体网络医院与重点科室实现预部署。

此外公司还同金融、教育、气象、水利、政务、网络安全等基础设施行业的政府单位、国央企与头部厂商也已与其达成合作意向，部分已完成签约。多家智能设备主机厂商、芯片厂商正同「陆兮科技」在积极接洽中，希望在大模型芯片适配、端侧智能操作系统研发、智能设备定制化设计等领域运用类脑架构与类脑大模型。

硬氪了解到，由「陆兮科技」自主研发的类脑大模型，已于今年8月获得国家网信办《生成式人工智能服务备案》，这也是国内首个取得该项备案的自研架构大模型、非Transformer架构大模型和采用“脑启发算法”技术路线的大模型，其非T架构大模型即将正式上线。

来源：36kr

本主题由版主或管理员于 2024-10-24 10:19 审核通过

0 举报本楼

本帖有 1 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图

GMT+8, 2024-11-22 05:45 , Processed in 0.100238 second(s), 16 queries , Gzip On.

Discuz Licensed

		自动登录	找回密码
密码			注册