通信人家园
标题:
信息量爆棚的AI for Science盛会!多位院士集中开讲,用AI破解材料难题、蛋白质密码
[查看完整版帖子]
[打印本页]
时间:
2024-11-6 09:24
作者:
tayun
标题:
信息量爆棚的AI for Science盛会!多位院士集中开讲,用AI破解材料难题、蛋白质密码
智东西(公众号:zhidxcom)
作者 | 汪越
编辑 | 心缘
智东西11月5日报道,昨天下午,2024科学智能峰会(AI for Science Forum)在北京大学百周年纪念讲堂开幕!综合论坛上,来自不同领域的顶尖科研专家们共同探讨了AI技术在多个学科的应用。从量子计算到生命科学,再到材料研究与高性能计算,AI正在推动各个领域的重大突破。
在物理学领域,中国科学院院士、复旦大学教授龚新高展示了AI优化的量子计算算法如何提高粒子碰撞实验的精度,并在高维数据空间中实现精确模拟。
在生命科学领域,中国科学院院士、北京大学-清华大学生命科学联合中心主任、北京大学定量生物学中心主任、北京大学前沿交叉学科研究院荣誉院长、国家自然科学基金委交叉科学部主任汤超强调AI在基因组数据实时解析中的潜力,AI算法能够从庞大的遗传数据中识别疾病早期迹象,显著提高诊断和治疗效率。
材料科学方面,中国科学院院士、北京大学党委常委、副校长、深圳研究生院院长、博雅讲席教授张锦介绍了深度学习与强化学习在新材料设计中的突破,尤其是AI加速新型催化剂的研发,提升了材料性能预测和实验优化的效率。
▲中国科学院院士、北京大学党委常委、副校长、深圳研究生院院长、博雅讲席教授张锦
在化学与材料的交叉学科中,中国科学技术大学讲席教授江俊提出AI如何在高维数据与复杂系统之间架起桥梁,通过智能化的机器化学家角色,实现实验设计与优化的大幅度提升。
北京科学智能研究院院长、深势科技创始人兼首席科学家张林峰分享了AI4S在基础设施建设中的应用,AI通过大规模数据处理与推理助力科研,特别是在解决“维数灾难”与高维复杂问题上的突破。
华为计算系统优化首席专家王龙探讨了AI4S在高性能计算中的角色,展示了AI与传统HPC架构的结合如何提升科研效率,尤其是在海洋模拟与材料科学中的实际应用。
一、龚新高院士:AI优化原子势开发与分子动力学模拟,提升材料逆向设计效率
中国科学院院士、复旦大学教授龚新高在演讲中谈道,量子力学是物质科学的基石,但由于其复杂性,仅在少数简单体系中,如氢原子,才能获得解析解答。科学家们逐步将研究重心从理论物理转向计算物理,试图将这些解析上不可解的问题转化为可计算和可模拟的形式。
这一转变体现在科学研究的四个范式的演变中,每个阶段都对物理学和材料科学的发展产生了深远影响。从依赖实验与经验的经验科学,到涉及经典物理学定律的理论科学,再到通过密度泛函理论(DFT)和分子动力学模拟的计算科学,最终进入数据挖掘、AI和机器学习结合的AI科学时代。这一转变不仅改变了物理学的研究方式,也极大推动了材料科学等多个领域的突破。
分子动力学模拟被誉为探索复杂体系动力学行为的“虚拟显微镜”,为深入理解材料和分子的行为提供了极其有力的工具。然而,当前的挑战在于如何准确描述原子之间的相互作用势。近年来,机器学习在原子势开发中取得了显著进展,从2007年提出的局部描述符方法(BPNN)到2023年推出的通用势能(M3GNet),研究者们不断推动对材料行为的理解。特别是自旋图神经网络(SpinGNN)和深度势能分子动力学(DeePMD)的引入,为解决材料的复杂相互作用提供了全新的视角。
Kohn-Sham方程是密度泛函理论(DFT)中实现高效计算的核心工具。随着AI技术的迅猛发展,机器学习模型逐渐被引入,用于改进哈密顿量的求解方法。在铜材料建模中,研究者们提出了核岭回归(KRR)和高斯过程回归(GPR)等方法,并将这些方法扩展到分子系统和石墨烯等材料的研究。2023年推出的HamGNN模型展示了其在处理二氧化硅及其不同同分异构体方面的出色能力,极大地提升了计算效率和预测精度。
电子激发态载流子动力学模拟在光物理和光化学领域具有重要意义。然而,传统方法面临着诸多挑战,包括电子运动的时间尺度远快于原子运动、激发态势能面振荡剧烈以及长时间模拟的精度不足。N2AMD(神经网络非绝热分子动力学)模型的提出,结合了神经网络和哈密顿量的优势,成功实现了对数万原子规模的杂化泛函动力学模拟。该模型不仅在计算精度上达到了1%的误差,且相比传统的DFT方法提高了四个数量级的计算效率,为材料逆向设计开辟了全新的领域。
AI物理为材料设计提供了高效的新途径,利用机器学习技术大幅提升了逆向材料设计的效率。基于AI的电子结构库和在线预测平台,如“AI物质科学实验室”,为材料检索和结构预测提供了强大的支持。这些平台不仅综合性强、开放性好,还拥有庞大的电子结构数据库,能够支持快速预测超过20万个晶体的电子结构。
未来,AI与物理学的结合将继续推动材料设计的高效性和精准性,助力纳米材料、量子材料等领域的创新。
<h2>
二、汤超院士:提出“AI+生命科学”整体框架,呼吁共享数据资源
</h2>
中国科学院院士、北京大学-清华大学生命科学联合中心主任、北京大学定量生物学中心主任、北京大学前沿交叉学科研究院荣誉院长、国家自然科学基金委交叉科学部主任汤超在其演讲中分享说,AI与生命科学的交汇正迅速演变成一种新的研究范式,称为“AI for Science”。
这一转变在2024年诺贝尔奖的授予中得到体现。约翰·霍普菲尔德和杰弗里·E·辛顿因在机器学习领域的基础性发现获得诺贝尔物理学奖,戴维·贝克、德米斯·哈萨比斯和约翰·江珀因通过人工神经网络提出的蛋白质结构预测模型获得诺贝尔化学奖。
随着生命科学大模型的发展,科学研究的视野已从单纯的分子层面拓展至细胞和组织层级。2014年注意力机制的提出、2018年AlphaFold的发布以及2020年蛋白质语言模型ESM-1b的推出,为这一进展奠定了基础。2023年,AlphaFold 2和ESM-2等模型在蛋白质结构预测方面取得显著进展,展示了AI在处理复杂生物数据方面的强大能力。
在生物科学中,数据的规模和精确度仍然是一个稀缺资源。生命本身是一个多层次、多维度的复杂系统,每个层次都有其特定的语言和逻辑,并且相互影响,这对AI的应用提出了更高的要求。
传统的AI框架擅长处理结构化和线性数据,但在面对生命科学中高维非线性数据的复杂性时,传统方法显得力不从心。如何有效整合多模态和多层次的数据,是生命科学AI研究的关键挑战。
与欧美国家相比,我国生命科学领域的数据利用率仍然较低。例如,英国生物库Biobank自2006年成立以来,已追踪了50万名个体的健康数据。近期,Biobank获得了近5000万英镑的资金支持,以加强数据存储、AI和机器学习等方向,并实现数据全球共享。
为解决这些挑战,汤超提出了“AI与生命科学”的整体框架,涵盖了四个关键组成部分:AI模型的底层框架、生物数据资源体系、多模态和多层次数据的整合以及复杂系统理论的融入。这个框架旨在提升实验建模能力,通过构建大型多模态生物数据库,实现数据共享,并搭建高通量数据生产的公共平台。
汤超称,未来的研究将致力于创新多模态大模型的底层框架,优化针对不同数据类型的编码器设计,并构建全新的模型架构,以捕捉生命现象中的语言逻辑、自组织特性、涌现现象、反馈机制以及适应性等特征。
汤超说道,他的目标是希望能构建一个多模态、跨层次的生命科学大模型,深入揭示这一复杂领域中的新规律和新原理。通过这一框架的建设,AI与生命科学的融合将极大推动人们对生命复杂性的理解,对生命机制和运作原理的洞察。
三、张锦院士:AI与材料科学互相助攻,辅助研发将向AI Agent进化
在材料科学领域,AI的应用正逐渐改变传统的研究模式。中国科学院院士、北京大学党委常委、副校长、深圳研究生院院长、博雅讲席教授张锦在演讲中谈道,材料研发面临的根本问题是如何处理数据的复杂性。传统材料科学因数据采集标准不一,导致实验结果差异较大。张锦强调,数据标准化是实现数据共享、再现性和科学知识迭代的基础。
在研究思维方面,传统科学方法倾向于追求简洁的公式和规律,以解释复杂现象。然而,材料科学往往缺乏简单的因果关系,盲目归因可能导致失真,丧失对整体系统的全面理解。张锦说,这种局限性意味着材料科学亟需新的研究范式。
AI正为材料科学提供突破性解决方案。AI擅长处理高维度、多尺度的数据,发现复杂的非线性关系,这在传统方法中是难以实现的。例如,DeepMind在2022年通过AI控制核聚变等离子体形状,GraphCast在2023年超越了最先进的人类天气预测系统。2024年,AlphaFold 3预测了所有生命分子的结构和相互作用,为生物科学带来重大进展。
张锦说,AI正从物理工具拓展到心智延伸。AI不仅辅助科学家处理海量信息,还支持从直觉驱动转向数据驱动的决策,通过辅助创作和创新,放大人类的创造力。
在材料研发的实际应用中,AI代理(AI Agent)的作用尤为突出。例如,万华化学通过AI代理助力材料研发全流程,推动了科研与产业化的融合。
该项目分为几个阶段:首先,通过对化学材料行业文献的训练,应用LLM进行初步的智能客服和知识共享;接着,AI与科研设备、软件联动,自动化整个研发过程,并开始沉淀科研数据;然后,结合领域特定的计算模型和训练模型,AI开始辅助创新点提出、实验设计,并实时根据应用情况进行分析和决策;最终,建立起专业化的LLM,AI代理能够自主进行复杂任务的思考、规划、试验,甚至发现新问题。
最后,张锦展望了“Materials for AI”的未来。AI硬件的突破将依赖于材料科学的推动,碳基半导体的进展有望延续摩尔定律,光子晶体器件将大幅提升计算速率。“AI for Materials”与“Materials for AI”的双向互动关系将成为未来科技创新的推动力。
正如2024年诺贝尔物理学奖和化学奖的授予所示,人工神经网络和蛋白质结构预测的突破表明,科学研究将不再单纯追求传统的可解释性,而是更多地依赖于黑箱式的预测模型。实验验证和不断校准将成为获取精准理解的重要途径。
四、中科大江俊:大模型与机器人融合,打造机器化学家
中国科学技术大学讲席教授江俊在演讲中谈道,化学演化研究中,理想模型与实际体系之间的脱节是科学家面临的一大难题。理论研究通常基于低维度的数学规则,如量子力学和元素周期表等基本物理定律,而实际应用场景则是高度复杂的高维问题,涉及化学、材料、能源、生命科学和医药等多个领域。
针对这一挑战,AI正提供全新的解决方案。通过机器学习与深度学习技术,AI能够在大量科学数据的基础上进行自我学习和优化,将理论与实践更好地结合。
在材料科学和催化剂设计方面,例如,在“高熵非贵金属产氧催化剂”项目中,研究人员通过207次机器实验和25426次理论模拟,筛选出553401种候选组合,最终找到最优的催化剂配方,将传统方法需要1400年的试错时间缩短至5周。
在材料设计方面,例如,在火星产氧催化剂的创制中,科学家利用AI和机器人技术,结合LIBS光谱技术赋予机器人元素分析能力,仅用2个月时间完成了原本需要数千年的百万级陨石配方筛选任务,并成功创制出高效的产氧催化剂,为火星任务提供了技术支持。
随着科技的发展,科研方式正在深刻变化。从传统的“能读-会算-勤做”到如今的大模型驱动的科研智能体,科学家们的工作模式正向智能化、自动化转型。机器化学家作为新兴角色,依靠AI进行实验设计、数据分析和优化。
例如,机器化学家通过智能体分析实验数据,结合贝叶斯优化算法,提出新的实验建议。在金属催化剂研究中,AI分析不同金属成分与催化反应速率的关系,建议降低铁的含量,增加钒的含量,从而提高催化效率。
AI驱动的强化学习也在理论预训练与机器实验的结合中取得进展。通过机器学习算法与实验数据的互动,AI不断改进模型,推动理论与实践的深度融合。例如,理论预测与GPT增强的贝叶斯优化相结合,使科学家能够更高效地发现高性能的纳米酶,将传统反复实验转变为高效的理论预训练和智能实验结合的新阶段。
AI在科学研究中的应用正得到全球范围内的大力支持。2023年,美国投资1610万美元建设AI共享研究基础设施;瑞士投资1亿人民币打造开放式科研设施;荷兰投资7.6亿人民币发展机器人化学实验室生态系统。
未来,AI与机器人的结合将进一步推动科研创新。通过大规模智能科研基础设施,科学家能够按需创制材料和设计化学品,解决当前技术难以克服的复杂问题。例如,机器化学家云科学装置作为一个科研平台,实现人机协同工作,推动化学与材料科学的按需创制。通过智能推荐、实验方案优化和数据预测,科学家将能够实现更加高效和精准的科研目标。
AI技术通过理论与实践的深度融合,解决了从大数据到小数据的转换问题,推动了化学、材料等领域的科研进步。
五、
深势科技张林峰:克服维数灾难,
AI4S实现
从想法到成果落地
北京科学智能研究院院长、深势科技创始人兼首席科学家张林峰在演讲中深入探讨了AI4S(AI for Science)如何通过机器学习、数据推理等先进手段,助力科研人员高效分析和处理海量数据,从而推动从基础理论研究到应用实践。
张林峰说,AI4S的早期突破主要体现在对高维数据的有效处理上。他强调,AI技术能够帮助科研人员克服“维数灾难”的挑战。在图像识别、人脸生成、AlphaGo等经典应用场景中,AI通过深度神经网络模型,成功逼近了高维函数或概率分布,为科学研究提供了全新的视角和解决方案。
AI4S的实现依赖于两大核心驱动力:数据驱动与基本原理驱动。通过AI4S,科学家们不仅能够通过海量数据揭示规律,还能够利用物理和化学的基本原理指导新技术的研发。例如,2020年获得“Gordon Bell”奖的深度势能分子动力学研究,成功破解了分子模拟中的高维复杂问题,推动了物质科学的进步。此外,DeepMind的AlphaFold2在破解蛋白质结构预测难题上也取得了突破,展示了AI在基础科学前沿的潜力。
在建设AI4S基础设施的过程中,科研人员面临着从基础要素到行业解决方案的“多级跳”。模型、算力、数据和工作流的协同发展至关重要。
在AI4S的发展路径中,重构大规模生物数据的标注解析流程成为一个重要应用方向。通过AI4S,科学家能够在海量多模态生物信息中挖掘新的规律和结构。以Uni-RNA为例,AI4S可以将复杂的生物数据转化为有意义的图谱,帮助研究者更精准地理解生物机制,发现疾病演化的轨迹。
在物质科学领域,AI4S通过分子层面的模拟和预测,加速了新型催化剂和药物的设计。例如,在设计高效的产氧催化剂时,AI4S通过机器实验和智能模型的迭代优化,大大缩短了研发周期,提高了材料设计的效率。
AI4S的最终目标是构建一个完备的科研生态系统,通过智能化、自动化的工具,帮助科学家高效地实现从想法到成果的全过程。这一系统将涵盖数据采集、实验设计、模型训练、结果分析等环节,形成一个无缝衔接的科研工作流,全面赋能物质和生命科学的大发现。
六、华为首席王龙:AI4S开发架构经历革新,用户将能够专注于算法研究
华为计算系统优化首席专家王龙在演讲中深入探讨了AI4S在计算科学中的应用实践及软件基础设施的探索。他谈道,在当前科学计算领域飞速发展的背景下,AI正与传统的高性能计算(HPC)紧密结合,不断突破计算能力的极限。
王龙预测,在接下来的5到10年里,AI4S将在地球科学、材料科学、生命科学等多个领域迅速发展,其在高性能计算应用中的比重也将不断增加。AI4S被视为HPC的“下一步”,即将成为科学计算的新标准。其核心优势在于能够高效处理大规模数据并进行智能推理,这对于科学计算中的数据分析、模拟和预测具有重要意义。
他还谈道,随着国产处理器的兴起,AI4S的开发架构正经历一场革新。当前计算架构面临的一些主要挑战包括批量优化难以达到最佳状态、个性化优化的复杂性日益增加,以及单一应用需要多份代码的现象,都增加了开发难度。为了解决这些问题,未来的AI4S开发架构将更加侧重于自动优化,减少手动优化的需求,从而大幅提高开发效率。
王龙进一步说,AI4S的理想发展方向是让用户能够专注于算法研究,而不必过多涉及硬件优化。通过自动化系统完成所有的优化过程,算法开发者可以将更多精力投入到创新和算法本身的提升上,而不是花费大量时间在硬件和架构的调整上。
AI4S在实际应用中的一个典型例子是MASNUM(Marine Science and Numerical Modeling),这是一种由自然资源部第一海洋研究所自主研发的海浪数值模式,用于海洋计算模拟。作为全球领先的海浪模式之一,MASNUM在海洋波动的模拟与预报方面具有重要意义,曾入围2016年戈登贝尔奖。随着超算和观测技术的发展,海洋模拟正逐渐向精细化方向发展。
海浪模拟依然存在准确性与计算成本之间的矛盾:提高模拟精度需要增加计算量,这会导致运行成本上升。引入AI4S后,通过智能算法对低分辨率模式的数据进行降尺度处理,实现了高分辨率模拟,同时保持较低的计算成本。
AI4S加速HPC应用的关键方案是“1+1”模式,即将传统HPC架构与AI框架(如PyTorch、TensorFlow)结合优化。在这种模式下,用户可以在不改变现有开发环境和编程习惯的情况下,继续使用Fortran或C/C++进行高效源码开发,同时利用Python进行AI模型训练。AI4S的核心优势在于其能够无缝后端优化,即用户继续使用熟悉的工具和语言,而平台自动嵌入推理引擎并优化性能。这种方式不仅简化了开发流程,还提升了计算效率,使得计算任务可以更加高效地运行。
在软件基础设施层面,华为提出了神笔马良概念,这是一种自动化性能优化技术,能够在不改变用户原始代码的情况下自动接管性能优化工作。通过神笔马良,用户无需深入了解硬件细节或编写复杂的优化代码,所有优化过程均由系统自动完成,从而大大降低了开发成本和时间,同时提升了计算性能。
在具体应用中,神笔马良对MASNUM的加速效果显著。例如,在鲲鹏计算系统上,神笔马良能够将气象、海洋、材料科学等领域的计算任务加速数倍,具体表现为E2E性能提升比率的显著增加。
通过多层算子优化和图优化技术,神笔马良在不改变代码的情况下成功提升了MASNUM模型的性能,最终实现了8.2倍的E2E加速效果。
在HPC应用中,AI4S不仅能帮助科研人员加速计算过程,还能通过自动化性能优化、智能代码生成等技术,降低开发的复杂度,推动领域创新。未来,随着AI4S算法的不断进步和自动化性能优化技术的发展,计算科学将迈入新时代,科研人员将更加专注于算法创新,不再受制于繁杂的硬件优化问题。
七、圆桌对话:AI4S将成为科学计算的新标准,计算科学软件有望全面重构
圆桌对话由中国科学院院士、北京科学智能研究院院长、北京大学国际机器学习研究中心主任鄂维南主持,邀请了中国科学院院士、复旦大学教授龚新高,中国科学技术大学讲席教授江俊,北京科学智能研究院院长、深势科技创始人兼首席科学家张林峰,华为计算系统优化首席专家王龙,北京大学博雅特聘教授、博士生导师、IEEE Fellow、北京大学深圳研究生院信息工程学院院长田永鸿参与。圆桌会议围绕数据重塑、AI与基础科学的结合、人才培养、F30项目愿景以及面临的挑战等议题展开了深入讨论。
▲从左至右:中国科学院院士、北京科学智能研究院院长、北京大学国际机器学习研究中心主任鄂维南,中国科学院院士、复旦大学教授龚新高,北京科学智能研究院院长、深势科技创始人兼首席科学家张林峰,华为计算系统优化首席专家王龙,中国科学技术大学讲席教授江俊,北京大学博雅特聘教授、博士生导师、IEEE Fellow、北京大学深圳研究生院信息工程学院院长田永鸿。
多位嘉宾强调了数据重塑在科学研究中的核心作用。江俊谈道,当前最为紧迫的任务便是解决数据重塑问题。由于实验条件和环境的差异,现有的许多实验数据难以达到统一标准,这不仅影响了研究结果的可靠性,也限制了不同研究成果之间的可比较性。
与会嘉宾一致认为,建立一个标准化的数据生产与重塑平台至关重要。这样的平台不仅能显著提升数据的质量,还将极大促进不同研究团队间的数据共享与合作。
F30项目成为本次会议重点讨论的内容之一。此项目由北京大学与北京科学智能研究院联合发起,旨在运用AI技术解决科学领域内的重大挑战。与会嘉宾普遍认为,F30项目有望在未来5至10年间取得突破性成果,特别是在材料科学和生物医药等关键领域。张林峰说,通过开发标准化接口和优化工作流,促进数据、模型与应用之间的良性循环,可大幅提高科研工作的效率,让科学家们能更专注于解决核心科学问题。
虽然应用前景广阔,但AI for Science仍然面临着多重挑战。
首要问题是数据获取难题,高质量的数据对于AI模型的训练至关重要,然而目前许多科研团队面临着数据不足的困境;其次是计算资源的限制,HPC作为AI研究的基石,其高昂的成本和较高的使用门槛成为了众多研究人员前进道路上的障碍;此外,人才短缺也是制约AI for Science发展的一大瓶颈。
王龙还谈道,AI技术的应用不应过于泛化,而应针对不同领域的特定需求进行精细化调整,以克服碎片化和泛化性的问题。
最后,与会嘉宾对2至3年内可能取得的突破进行了展望。
龚新高称,在接下来的2至3年内,计算科学的软件有望实现全面重构,这将为“AI for Science”的发展提供强有力的技术支持。
张林峰说,随着AI技术从初步尝试到快速迭代(如AlphaGo从1到2版本的升级,以及GPT从1到4版本的演进),AI正加速化学领域的进步,促进新化学规律的发现及新物质的合成。
王龙聚焦于DPA-2及其在气象领域的应用,认为AI技术将在提升气象预报准确性和数据处理能力方面发挥关键作用。
江俊关注的是基础科学中的镨学与光谱分析,特别是如何利用AI技术改进一维曲线和二维图像的解析,以加速新材料和新物质的发现。
田永鸿特别谈道AI在制药行业的潜力,认为AI驱动的方法将在药物研发流程中占据核心地位,不仅能够加速新药的发现,还能促进其更快地进入市场。
结语:从量子计算到生命科学的跨学科渗透
从量子计算到生命科学,再到材料研究与化学创新,AI的多领域渗透正在加速推动科学边界的突破。与会的专家们不仅分享了各自领域中的技术进展,也深刻探讨了跨学科协作的重要性,尤其是在数据隐私、模型可解释性和算法公平性等挑战面前,如何构建更为开放和透明的科研平台。
未来,AI将在科研工作中扮演越来越核心的角色,尤其是在推动从基础理论到实际应用的快速转化。通过建立智能化、自动化的科研工作流,AI将帮助科学家们提高工作效率,缩短研究周期。随着技术不断进步,AI4S将继续引领科学研究的新方向。
来源:智东西
通信人家园 (https://www.txrjy.com/)
Powered by C114