夏源: 医疗领域主要关注两个方面:模型训练和实际应用情况。模型训练方面,我们需要大量的医疗数据,这些数据主要来自 C 端和 B 端。C 端数据相对容易处理,包括百度健康平台的 UGC 内容和医生审核的精编内容等,这些高质量的数据可用于预训练。B 端数据则涉及与一些权威数据库合作,用于预训练和内容挖掘。实际应用阶段,在医院数据层面,我们面临的问题较大,因为并非所有医院都愿意分享数据,尤其是涉及隐私问题,尽管数据都会进行严格脱敏。为了解决这个问题,我们采取了 模型私有化部署的策略,这是 B 端尤其是医疗大模型非常重要的一环。
为了适应医院的需求,我们将大模型容量进行蒸馏,将其精简到百亿参数级别甚至更小,以实现病历生成和智能诊断等功能。同时,我们也支持国产芯片,如华为的昇腾 NPU、海光的 DCU 以及百度的昆仑芯片,以实现私有化部署。对于没有能力采购 GPU 的医院,我们提供了 CPU 版本的大模型,并与芯片厂商合作,针对特定模型架构进行专有适配,提升推理效率,确保模型能够私有化部署。通过私有化部署,我们可以有效地解决数据隐私问题,因为所有数据都保留在医院内部,不会外泄,从而消除客户的疑虑。
张涛: 我观察到 Claude 新发布的模型 Demo,以及像 cursor 这样的项目,它们已经开始引入多模态技术。这些技术能够处理如将图片输入后直接复刻网页或 APP 布局的任务。在我的理解中,这种素材生成技术在零售领域可能会有应用。在医疗领域,传统的 AI 或者说 AI 1.0 时代,主要依赖计算机视觉技术来分析病理图片、CT 图像等,进行问题检查。而现在,随着新大模型的出现,医疗领域也拥有了更多前沿的能力。