随着人工智能(AI)模型规模以及应用范围的不断拓展,性能上限和能耗瓶颈正逐渐显现出来。大语言模型(LLM)、强化学习和卷积神经网络等 AI 模型的复杂性不断增长,正在将传统电子计算推向极限,能源需求也不断增加。
传统电子计算硬件(如 GPU 和 TPU)的速度和效率由于受到摩尔定律和登纳德缩放定律的限制,能效瓶颈愈发明显,支撑 AI 所需的计算能力可能会将现有电子硬件推向极限,与此同时,AI 整体能耗的上升也导致碳排放增多,对数据中心附近的电网构成压力。
面对日益增长的计算需求,使用光子而非电子的光子计算为这些挑战提供了一个潜在的解决方案。
本周《自然》杂志上的两篇重磅论文,介绍了一种结合“光”和“电”的计算机芯片,展示了利用硅基光子学技术的互补突破。这两项工作利用了一种既处理电信号又利用光信号的新型芯片,在提升计算性能的同时也能降低能耗。
经过实际应用测试,他们提出的电子–光子混合计算系统在关键性能指标上不仅能够与纯电子处理器相媲美,在某些实际应用中甚至表现出超越电子处理器的优势。这标志着我们朝着真正实现光子计算潜能迈出了重要一步。
具体而言,新加坡 Lightelligence 公司 Yichen Shen 团队展示了一种名为 PACE 的光子加速器,这个由超过 16000 个光子组件组成的大型加速器,采用 64×64 的矩阵,能够实现高速计算(最高达 1 GHz),并且与小规模电路或单个光子组件相比,最小延迟减少了 500 倍。这种极低延迟的计算,对于实时处理来说是一个重要的计算速度指标。PACE 也被证明能够解决被称为“伊辛问题”的复杂计算问题,表明了该系统在实际应用中的可行性。
在另一篇独立的论文中,来自美国光子计算机公司 Lightmatter 的 Nicholas Harris 团队描述了一种能够高效高精度执行 AI 模型的光子处理器。该处理器由四个 128×128 的矩阵组成,可以执行自然语言处理模型 BERT 和用于图像处理的神经网络 ResNet,其精度与传统电子处理器不相上下。研究人员还演示了该光子处理器的多种应用,包括生成莎士比亚风格的文本、准确分类电影评论,以及玩经典的 Atari 电脑游戏《吃豆人》等。
两个团队均表示,他们的系统是可扩展的,还有进一步优化的空间。“光子计算已经发展了几十年,但这些演示可能意味着我们终于可以利用光的力量来构建更强大、更节能的计算系统。”在 Nature 同期发表的一篇评论文章中,达特茅斯学院工程学助理教授 Anthony Rizzo 表示。
光子计算,不再受制于晶体管限制的计算技术
在计算机和 AI 技术高速发展的今天,内存访问和数据传输占据了绝大部分 AI 工作负载的能耗和执行时间,甚至超过了计算本身的消耗。即使计算单元几乎不消耗能量,整体效率仍然受到数据传输的限制。
计算技术也正处在一个前所未有的转折点。AI 工作负载对计算能力的需求已经超越了传统扩展定律(如摩尔定律、登纳德缩放定律和内存扩展定律)所能提供的能力。这三项定律,尤其是在每单位硅面积的基础上,已经基本停滞。
近几十年来,科学家们一直在探索寻找新的计算技术,以解决基于晶体管架构的固有限制。
例如,量子计算能够在某些问题上实现指数级加速,但目前在纠错、可扩展性和保持相干性方面面临挑战。此外,为量子计算机创建可证明比经典计算机算法更高效的算法也存在困难;DNA 计算利用分子级并行性,但面临显著的实际障碍,包括操作速度慢以及与传统计算系统接口的困难;类脑计算和模拟计算方法提供了受生物神经网络启发的独特信息处理方式,但通常缺乏灵活性、通用适用性和与现有算法的兼容性;基于碳纳米管的处理器旨在取代硅晶体管,但仍然受到连接纳米管计算元件的电气线路充放电所需的能量和时间成本的限制。
光子学作为一种替代传统电子技术的方案,因其具有高带宽、低延迟、颜色并行化等固有优势,以及通过光基计算实现更高能效的潜力而备受关注。光子计算是一种利用光信号进行计算的技术。光子计算的优势在于光的速度极快,光信号的带宽很高,而且光子计算的能耗更低。换句话说,光子计算就像是“信息高速公路”,可以让数据传输和处理变得更加高效。
而且,光子计算具有更高的并行性和更低的功耗,理论上可以显著提升计算速度和能效。此外,矩阵乘法和累加(MAC)运算是 AI 的核心计算操作,使用光子电路可以更快、更高效地完成这些操作。近些年来,科学家们已经开发了包括利用时间-波长交错调制和光电乘法的光子加速器,展示了朝着实用光子处理器在 AI 任务中应用迈出的重要一步。
光子计算作为一种有潜力的研究领域已经存在了数十年,但其在实际应用中的推广一直受到制约,原因在于缺乏能够实现芯片级、可规模化生产的光学处理单元。尽管一些最先进的展示证明了集成光子学在加速计算方面的潜力,但这些光子芯片的性能评估大多是在单独测试中进行,而现实系统中的数据大多依赖于电子领域。因此,光子计算必须与电子技术紧密集成,共同设计才能发挥出最佳性能。
事实上,这两项技术并非互相竞争,而是各有所长、互为补充。具体来说,光子技术在执行线性运算时(即输入与输出数据之间存在线性、成比例关系的情况)表现得更为高效;而电子技术则在处理非线性运算时(即输入与输出数据之间通过复杂数学函数关联,而不再保持简单比例关系)具有更大优势。
PACE:首个基于商用硅光子技术实现的大规模光子加速器
光子计算的潜力尚未完全实现,主要受限于大规模集成和复杂电路设计的挑战,包括光学信号与电子信号的协同集成和转换、在大规模复杂电路中类比计算的精度问题,以及适合光子硬件的算法和模型开发。
Yichen Shen 团队介绍了一种基于大规模集成光子技术的光子加速器系统 PACE,该系统能够实现超低延迟的矩阵乘法与累加(MAC)运算,并在解决计算复杂度高的问题(如 Ising 问题)方面表现出显著的性能优势。
图|PACE 系统(来源:Nature)
具体而言,研究团队基于商用 65 纳米硅光子技术,集成了超过 16000 个光子组件,提出了一种 64×64 的 PACE。而且 PACE 采用光电协同集成设计,将光子集成电路(PIC)和电子集成电路(EIC)封装在一个系统级封装(SiP)中。电子芯片基于 28 纳米 CMOS 技术,负责数据输入、输出和逻辑控制。
他们将光子芯片和电子芯片通过 2.5D 封装技术紧密集成在一个封装内,实现高密度信号连接,从而能够支持大规模矩阵运算。系统通过光调制器和探测器实现高速光电信号转换,并通过嵌入式静态随机存取存储器(SRAM)管理数据存储。
性能方面,他们将 PACE 的表现与一款最先进的 NVIDIA A10 GPU 在解决涉及 64×64 矩阵乘法的伊辛模型时的表现进行了对比,结果显示在最小延迟这一关键指标上,计算时间从 2300 纳秒缩短到仅 5 纳秒,近乎实现了 500 倍的改进。此外,PACE 的延迟扩展系数约比 TPU 低 1000 倍,这意味着随着矩阵规模的增大,其延迟优势会愈加显著。
此外,系统通过引入可控噪声(来自激光器、模拟驱动器和数字电路)实现高效的比特翻转,从而提高算法的搜索效率。并通过严格的器件规格控制和校准,系统实现了平均 7.61 位的有效精度(ENOB),并能够在 ±5°C 的温度波动下保持稳定。能效方面,PACE 的能效达到 4.21 TOPS/W(不包括激光器)和 2.38 TOPS/W(包括激光器),显著优于传统电子计算平台。
研究人员表示,PACE 是首个基于商用硅光子技术实现的大规模光子加速器,该系统在延迟和计算速度方面的显著优势,为光子计算在 AI、优化问题和实时处理等领域的应用奠定了基础。与传统 GPU 相比,PACE 在延迟和计算时间上实现了两个数量级的提升,为光子计算的商业化和大规模应用提供了重要参考。
研究人员也指出,通过进一步优化器件设计和信号处理,未来光子加速器的延迟可以降低到 3 纳秒以下。光子计算也有望成为解决复杂计算问题的新一代计算平台,特别是在需要高吞吐量和超低延迟的场景中。
新型光子 AI 处理器:已开玩《吃豆人》
从更宏观的角度来看,计算技术的未来需要在内存、互连和计算 3 个关键领域取得突破。开发一种可扩展的、类似 DRAM 的内存解决方案仍然是一个重大且未解决的挑战,目前尚无明确的实用解决方案。
Nicholas Harris 团队介绍了一种革命性的光子处理器,通过 Lightmatter 突破性光子互连技术 Passage 显著降低数据传输能耗并提供超高带宽,为这一关键瓶颈提供了解决方案。
这种新型的光子 AI 处理器能够运行常见的 AI 模型,比如 ResNet(用于图像分类)、BERT(用于文本分析)以及 DeepMind 的 Atari 强化学习算法(用于游戏决策),通过光子芯片实现了接近传统电子计算的精度,同时具有更高的能效。
图|四核光子处理器(来源:Nature)
具体而言,该光子 AI 处理器集成了四个 128×128 的光子张量核心(PTC,负责光信号的计算),每个 PTC 包含 128 个 10 位光子向量单元和 128×128 个 7 位权重单元。PTC 通过高速光电信号与数字控制芯片(DCI,管理光子芯片的运行,并将光信号转换为数字信号)相连,实现了高效的数据传输和处理。
性能表现上,该处理器在 78 瓦的电功耗和 1.6 瓦的光功耗下,每秒可执行 65.5 万亿次 16 位自适应块浮点(ABFP)运算。这是目前光子处理器中最高的集成水平。
精度方面,该处理器在多个 AI 任务中表现出与 32 位浮点计算相当的精度,例如 ResNet 18 在 CIFAR-10 数据集上的分类准确率达到 97.8%,与传统电子硬件相当。
任务能力上,该光子处理器可以执行分类任务(如识别图像)、回归任务(如预测数值)和强化学习任务(如玩复杂的游戏)。其中在分类任务 ResNet18 等模型上表现出与数字平台相当的分类准确率;在回归任务(如 SQuAD)中,由于光子计算的噪声敏感性,该处理器的性能略有下降;在强化学习算法上,该处理器能够运行 Atari 游戏,尽管性能略低于 FP32 处理器,但展示了其在复杂决策任务中的潜力。
图|光子处理器运行 Atari 游戏《吃豆人》,其性能可与传统电子处理器媲美(来源:Nature)
研究人员认为,这项研究的意义在于展示了光子计算在 AI 领域的巨大潜力。光子处理器的高能效和高性能使其成为未来 AI 硬件的有力竞争者,尤其是在需要处理大规模数据和复杂模型的场景中。这种处理器的成功运行,也为后晶体管时代的计算技术提供了一种新的可能性,也为未来 AI 硬件的发展指明了方向。
计算技术的一个历史时刻
光子计算的发展已酝酿数十载,如今这些全新的突破性成果或许意味着我们即将真正利用“光”的力量,打造出更强大且更节能的计算系统。
光子芯片在能效和性能上的优势,使其成为未来 AI 硬件的有力竞争者,尤其是在大规模数据处理和复杂模型训练中。而光子芯片的成功运行证明了其在实际 AI 任务中的可行性,为未来光子 AI 硬件的商业化和应用奠定了基础。
研究人员也指出,光子芯片代表了一个令人兴奋且必要的新前沿,最新的研究成果意味着计算技术的下一章不必受制于晶体管的限制,这代表着计算技术的一个历史时刻。不过,这并不意味着电子计算将消失,相反,我们正在进入一个多种计算范式共存的时代。
尤其值得注意的是,这两项成果演示中所用的光子芯片和电子芯片均是在标准的互补金属氧化物半导体(CMOS)厂房中制造的,也正是目前用于生产微电子芯片的厂房。因此,现有制造基础设施可以被迅速利用以实现大规模生产。
另外,两套系统均已通过标准“主板”接口(技术上称为外设组件互联高速接口)实现了完整集成,从而使其能够与现有的各类接口及协议兼容。这是计算历史上首次展示一种非晶体管技术能够以与现有电子系统相当的精度和效率运行复杂的真实工作负载。这种从理论可能性到实际实施的转变标志着计算技术的新篇章,验证了光子学作为一种能够显著影响 AI 处理未来发展的可行解决方案。
不过,虽然光子处理器已经取得了显著进展,但要想将光子计算彻底作为电子芯片的商业替代方案,仍存在不少技术障碍。例如,如何进一步提高精度、降低功耗,以及如何优化材料和制造工艺等。尽管如此,我们仍有充分理由期待光子芯片在不久的将来能够走入现实系统。
参考资料:
https://www.nature.com/articles/s41586-025-08786-6
https://www.nature.com/articles/s41586-025-08854-x
https://www.nature.com/articles/d41586-025-00907-5
来源:36kr
|