通信人家园

标题: 高中辍学天才、谷歌ViT三大将集体跳槽OpenAI！组队Sora决战AGI [查看完整版帖子] [打印本页]

时间: 2024-12-6 11:45

作者: ttxx 标题: 高中辍学天才、谷歌ViT三大将集体跳槽OpenAI！组队Sora决战AGI

新智元报道

编辑：静音好困

【新智元导读】OpenAI又有新人加入！来自DeepMind的3名顶级工程师兼ViT共同一作，来自Midjourney的全能工程师兼高中辍学神童——人才大战从未止息……

就在昨天，OpenAI从谷歌DeepMind挖走了3名顶级工程师！

3名工程师分别是Lucas Beyer、Alexander Kolesnikov和Xiaohua Zhai，都在X上官宣了这条消息。

据悉，加入OpenAI后，他们将致力于多模态人工智能的研发。

他们曾是近年来最先进视觉方法（SOTA）以及开源模型（如ViT、SigLIP和PaliGemma）的幕后功臣。

三人之间的关系也非常密切，学术合作颇多。

上下滚动查看

其中，他们于2021年作为共同一作发布的论文「An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale」，被引用量高达4.9万。

该论文提出了Vision Transformer (ViT) 。当在大规模数据上进行预训练，并迁移到多个中型或小型图像识别基准（如ImageNet、CIFAR-100、VTAB等）上时，ViT相较于最先进的卷积网络能够取得优异的结果，同时所需的训练计算资源显著更少。

研究证明了，在视觉领域中，对卷积网络的依赖并非必要，一个直接应用于图像块序列的纯Transformer在图像分类任务中也能表现出色。

在此之前，2020年他们还曾一起提出了神经网络架构Big Transfer (BiT)，也是一次视觉模型扩展的突破。

ViT之后，他们在神经网络架构方面的探索也没有止步，分别在2021年和2023年提出了MLP-Mixer和FlexiViT。

此外，他们三人还一起参与开发了开放权重模型SigLIP和PaliGemma。

2023年，他们一起研究提出了一种用于语言-图像预训练 (Language-Image Pre-training, SigLIP) 的简单成对Sigmoid损失函数，发现在CLIP中使用Sigmoid替代SoftMax更具可扩展性。

结合锁定图像微调 (Locked-image Tuning)，他们使用仅四块TPUv4芯片在两天内训练出一个SigLiT模型，其在ImageNet零样本分类任务中达到了84.5%的准确率。

PaliGemma则是今年7月提出的。PaliGemma是一个开源的视觉语言模型（VLM），基于SigLIP-So400m视觉编码器和Gemma-2B语言模型构建，在各种开放世界任务中表现强劲。

值得注意的是，Xiaohua Zhai（翟晓华）是一名华人，本科毕业于南京大学，且曾于2014年获得了北京大学计算机科学博士学位。

在谷歌DeepMind时，他担任高级研究科学家兼经理，并领导着苏黎世的一支多模态研究团队，专注于多模态数据（如WebLI）、开放权重模型（SigLIP、PaliGemma）以及包容性（CultureDiversity）等领域的研究。

至于Alexander Kolesnikov，他自2018年起，一直在谷歌工作，并担任高级研究科学家。

在此之前，他在奥地利科技研究所（ISTA）攻读博士学位，导师是Christoph Lampert，当时的研究方向是弱监督学习和生成图像模型。

他的成就包括训练了多个最先进（SOTA）的视觉模型（2019、2020 和 2021年的ImageNet SOTA），以及此前提到的开放权重模型SigLIP和PaliGemma、神经网络架构方面的BiT、ViT、MLP-Mixer和FlexiViT。

最近，他的研究重点是统一、简化并扩展多模态深度学习，如UViM、带奖励的视觉模型（Vision with Rewards）和JetFormer。

他还热衷于编写灵活且高性能的研究基础架构（尤其是在JAX中）。其中很大一部分是开源的，例如 big_vision。

Lucas Beyer则很有趣，在自己的博客上自诩为「一个自学成才的黑客和科学家」。

据他介绍，他已经在顶会上发表了相当多的论文。迄今为止，他一共发表了50多篇论文。

他也是在2018年加入了谷歌。

高中辍学，Midjourney工程师加入OpenAI

五年前，Gabriel Petersson还是个瑞典的高中辍学生，几乎没有任何工程经验便加入了一家创业公司。

而今天，他正式成为了OpenAI的研究科学家，致力于用Sora来构建AGI。

在推文中，Petersson写道，当下有众多公司都在争相「开发」AI模型，但是这种模仿和追赶是非常容易的。

相比之下，全世界只有一家公司在提升模型的智能水平方面取得了突破性进展。

目前，AI在理解现实世界方面仍面临诸多挑战。

为应对这一问题，我们可以为AI构建可探索的场景，让它从最基础的像素数据中重新发现物理定律，同时为类人机器人打造用于学习的模拟环境。

Petersson最后表示，他将与一群他所遇到过的最杰出人才携手，共同攻克这些关键难题。

纵观Petersson的经历，不得不感慨他真是神童一个。

14岁就非常有商业头脑。那一年他开始从事宝可梦卡片交易，2年间总利润超过2万美元，保持很高的利润率。

他制作的《我的世界》（Minecraft）延时摄影视频获得数百万次播放量；还运营《我的世界》游戏服务器，与内容创作者合作，并尝试将自建的开放世界角色扮演游戏服务器商业化。

17、18岁的时候，Petersson从高中辍学，作为创始团队成员加入Depict.ai（YC 2020夏季批次），该公司现已发展到约40名员工。

期间，他技术销售两手抓：既运用CNN和NLP技术开发了首个产品推荐系统，又负责B2B销售，通过上门拜访成功签约多个客户。

在他18、19岁这两年，恰逢新冠疫情，Petersson开发了一个洗手液比价网站，首周就实现了2.2万美元收入。

后来，在19-20岁期间，Petersson还被聘为瑞典最大的云厨房企业Curb Food的临时首席技术官，公司当时有80名员工。并且他在这个公司从零开始组建了7人的工程师团队，成功将厨房管理系统推向生产环境。

后来的两年，Petersson作为Dataland（YC孵化项目）的创始工程师，打造了一款面向开发者的高性能Airtable替代产品——能在几秒内加载数十万行数据；开发了业界性能最强的网页表格之一，可以流畅处理数十万行数据的筛选和排序，且保持稳定帧率。

另外，他还用Rust语言结合Skia图形引擎开发了一个实验性网页表格。即使在 CPU 降速6倍的情况下，仍能保持60帧的滚动和渲染速度。

演示链接：https://www.loom.com/share/540ad426c22c4db192293babfc9c7fdf

22岁之后，Petersson就一直在Midjourney担任软件工程师，负责 /rank、/surveys 和 /ideas 等页面的开发。工作涵盖从前端到数据库再到网络的全栈开发。

参考资料：

https://www.wired.com/story/openai-hires-deepmind-zurich/

来源：网易

时间: 2024-12-7 17:08

作者: Area_Code_61706

拭目以待

通信人家园 (https://www.txrjy.com/)