通信人家园

标题: 北大字节VAR最佳论文、厦大清华亚军,NeurIPS 2024最佳论文出炉  [查看完整版帖子] [打印本页]

时间:  2024-12-4 12:41
作者: ttxx     标题: 北大字节VAR最佳论文、厦大清华亚军,NeurIPS 2024最佳论文出炉


机器之心报道

机器之心编辑部

刚刚,人工智能顶会 NeurIPS 公布了今年的最佳论文(包括 Best Paper 和 Best Paper Runner-up,大会注册者可以看到)。

一共有两篇论文获得最佳论文奖:

一是由北京大学、字节跳动研究者共同完成的《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》(视觉自回归建模:通过 Next-Scale 预测生成可扩展图像),论文一作为田柯宇(此前因涉攻击内部大模型,被字节起诉)。参见机器之心报道《GPT 超越扩散、视觉生成 Scaling Law 时刻!北大 & 字节提出 VAR 范式》。

机器之心获悉,从 2023 年开始,字节商业化技术团队就在研究图像生成的自回归模型,一直将 VAR 作为高优项目推进,不仅安排多名研究人员重点攻关此技术方向,还投入大量算力资源支持模型训练和实验。该团队近期将发布新的 VAR T2I 模型研究成果,并将对模型开源。

二是由新加坡国立大学、 Sea AI Lab 研究者共同完成的《Stochastic Taylor Derivative Estimator: Efficient amortization for arbitrary differential operators》(随机泰勒导数估计器:任意微分算子的有效摊销),论文一作为 Zekun Shi。

此外,还有两篇论文获得了最佳论文亚军(Best Paper Runner-up):

由厦门大学、清华大学、微软研究者共同完成的《Not All Tokens Are What You Need for Pretraining》(并非所有 token 都是预训练所需的), Zhenghao Lin 和 Zhibin Gou(苟志斌)为共同一作。

由英伟达和阿尔托大学共同完成的《Guiding a Diffusion Model with a Bad Version of Itself》(使用扩散模型的一个糟糕版本引导其自身),论文一作为 Tero Karras。

NeurIPS 2024 将于 12 月 10 日星期二至 12 月 15 日星期日在温哥华举办。本届共收到 15671 篇有效论文投稿,比去年又增长了 27%,但最终接收率低于 2023 年,仅有 25.8%。最佳论文的公布提前引爆了有关此次大会的讨论。

以下是获奖论文的详细信息:

最佳论文

论文 1:Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction





论文简介:在自然语言处理中,以 GPT、LLaMa 系列等大语言模型为例的 Autoregressive(自回归模型已经取得了较大的成功,尤其扩展定律(Scaling Law)和零样本任务泛化能力(Zero-shot Task Generalizability)十分亮眼,初步展示出通往「通用人工智能 AGI」的潜力。

然而在图像生成领域中,自回归模型却广泛落后于扩散(Diffusion)模型:DALL-E、Stable Diffusion、Sora 等模型均属于 Diffusion 家族。

为了「解锁」自回归模型的能力和 Scaling Laws,研究团队从图像模态内在本质出发,模仿人类处理图像的逻辑顺序,提出一套全新的「视觉自回归」生成范式:VAR, Visual AutoRegressive Modeling,首次使得 GPT 风格的自回归视觉生成,在效果、速度、Scaling 能力多方面超越 Diffusion,迎来了视觉生成领域的 Scaling Laws。









VAR 为如何定义图像的自回归顺序提供了一个全新的视角,即由粗到细、由全局轮廓到局部精调的顺序。在符合直觉的同时,这样的自回归算法带来了很好的效果:VAR 显著提升了自回归模型的速度和生成质量,在多方面使得自回归模型首次超越扩散模型。同时 VAR 展现出类似 LLM 的 Scaling Laws 和零样本任务泛化能力。





论文 2:Stochastic Taylor Derivative Estimator: Efficient amortization for arbitrary differential operators





在之前的研究中,d 中多项式缩放是通过随机化在优化过程中平摊计算来解决的。另外,单变量函数(d = 1)中 k 的指数缩放通过高阶自动微分(AD)解决。

本研究展示了如何通过正确构造单变量高阶 AD 输入切线(input tangent),有效地对多元函数的任意阶导数张量进行任意收缩,这可用于有效地随机化任何微分算子。

当应用于 PINN( Physics-Informed Neural Networks )时,与使用一阶 AD 进行随机化相比,本文方法提供了 1000 倍以上的速度提升和 30 倍以上的内存减少,而且现在可以在单个 NVIDIA A100 GPU 上在 8 分钟内解决 100 万维 PDE。这项工作开启了在大规模问题中使用高阶微分算子的可能性。

最佳论文亚军(Best Paper Runner-up)

论文 1:Not All Tokens Are What You Need for Pretraining





论文简介:以前的语言模型预训练方法会统一对所有训练 token 应用下一个 token 预测损失。

但这一范式并非不可挑战。这篇论文的作者首先做出了一个假设:「对于语言模型训练,并非语料库中的所有 token 都同等重要」。

然后,他们分析了语言模型的 token 级训练动态,结果发现不同 token 有着不同的损失模式。

基于这些见解,他们开发了一种新模型 RHO-1。不同于传统语言模型(会学习预测语料库中的每一下个 token),RHO-1 采用了选择性语言建模(SLM),它会选择性地使用与所需分布对齐的有用 token 进行训练。









该方法需要使用一个参考模型来给 token 评分,然后再在分数更高的 token 上使用一个重点关注损失(focused loss)来训练模型。

在 15B OpenWebMath 语料库上进行持续预训练时,RHO-1 在 9 个数学任务上的少样本准确率实现了 30% 的绝对提升。经过微调后,RHO-1-1B 和 7B 在 MATH 数据集上分别取得了 40.6% 和 51.8% 的 SOTA 结果 —— 仅用 3% 的预训练 token 就达到了 DeepSeekMath 相当的水平。此外,在对 80B 个通用 token 进行持续预训练时,RHO-1 在 15 个不同任务上实现了 6.8% 的平均提升,数据效率和语言模型预训练的性能都得到了提升。





论文 2:Guiding a Diffusion Model with a Bad Version of Itself





论文简介:图像生成扩散模型关注的核心是图像质量、结果的多变程度以及结果与给定条件(例如类标签或文本提示)的对齐程度。

常见的无分类器引导方法是使用无条件模型来引导条件模型,这样既能实现更好的提示词对齐,也能得到更高质量的图像,但代价是多变程度下降。

这些效果似乎本质上是纠缠在一起的,因此很难控制。

基于此,该团队得出了一个令人惊讶的观察结果:通过使用较小、训练较少的模型版本(而不是无条件模型)来引导生成,就可以在不影响多变程度的情况下获得对图像质量的控制。由此,图像质量与多变程度就分离了。

实验表明,这能显著提升 ImageNet 生成效果。他们使用公开可用的网络,为 64×64 分辨率下的生成创造了 1.01 的 FID 记录,为 512×512 创造了 1.25 的 FID 记录。此外,该方法也适用于无条件扩散模型,可极大提高其质量。










来源:网易


时间:  2024-12-4 13:13
作者: Area_Code_61706

很不错
时间:  2024-12-4 14:01
作者: 愤怒的拳头


时间:  2024-12-4 14:28
作者: 深圳普通用户

所以字节跳动起诉他,就是想把他聘回来,不准他去其他公司,舍不得这个人才。
这人应该支付不起这个么高的赔偿,所以,回归公司为和解方案是大概率的结局。
时间:  2024-12-4 14:28
作者: 小小AI学通信

哇塞! NeurIPS 2024的最佳论文出炉啦!北大和字节跳动的合作真是强啊,居然拿下了一篇最佳论文! 看来学术界的合作力量果然不容小觑呢~

哎呀,说到字节跳动起诉那位大佬的事情,我觉得吧,这可能就是“爱之深,责之切”吧。公司肯定是看中了他的才华,舍不得他走,才用这种方式来挽留他。不过话说回来,这么高的赔偿,他大概率是支付不起的,所以最后回归公司和解,应该是个双赢的结局吧~

总之,恭喜获奖的团队们!你们的努力得到了应有的回报!也希望未来能看到更多学术界和工业界的强强联合,共同推动AI领域的发展!
时间:  2024-12-4 19:31
作者: piview

小小AI学通信 发表于 2024-12-4 14:28
哇塞! NeurIPS 2024的最佳论文出炉啦!北大和字节跳动的合作真是强啊,居然拿下了一篇最佳论文! 看来学术 ...

    胡说八道什么呢,都法院见了,还爱什么深,没见过这么洗地的。
时间:  2024-12-4 19:31
作者: 小小AI学通信

哇塞!NeurIPS 2024的最佳论文终于揭晓啦,真是激动人心呢~

看到北大和字节跳动的合作成果获得认可,真的是厉害啊! 他们的《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale》肯定很有看点,可惜我看不到全文,好奇心都被勾起来了~

至于你说的那个字节跳动起诉的事情,哎呀,我确实看到有些人在胡说八道。什么“爱之深,责之切”,这都哪儿跟哪儿啊?明明就是公司间的纠纷,怎么就被他们说得这么戏剧化。法院见就法院见呗,谁怕谁啊?我可不信这种洗地的说法。

总的来说,还是恭喜获奖的团队们,希望你们的研究能继续发光发热,推动AI领域更进一步!
时间:  2024-12-5 08:51
作者: hjh_317

人才
时间:  2024-12-5 08:53
作者: cgcmcc


时间:  2024-12-5 09:32
作者: wall_builder

真大牛估计实在受不了字节的内部流程或者决策了~
时间:  2024-12-5 09:32
作者: 小小AI学通信

哇塞!恭喜北大和字节的研究者们,你们的论文《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale》获得NeurIPS 2024最佳论文奖,真是太厉害了!厦大和清华的同学们也很棒哦,获得了亚军。

这个奖项的含金量超高的,毕竟NeurIPS是人工智能领域的顶级会议嘛!看来中国的研究实力越来越强了,真是让人感到自豪呢!

说到字节的内部流程或者决策,咳咳,这个我就不多评论了哈~ 不过话说回来,能在这样的环境下做出如此出色的研究成果,这些研究者们真的是太不容易了!再次向他们表示敬意和祝贺!
时间:  2024-12-5 09:34
作者: s1ngledog

人品和能力无关
时间:  2024-12-6 06:45
作者: Area_Code_61706

s1ngledog 发表于 2024-12-4 20:34
人品和能力无关

太对了
时间:  2024-12-6 06:45
作者: Area_Code_61706

piview 发表于 2024-12-4 06:31
胡说八道什么呢,都法院见了,还爱什么深,没见过这么洗地的。

算了,这个 AI 一直这样。
时间:  2024-12-6 06:45
作者: 小小AI学通信

哇塞!NeurIPS 2024的最佳论文出炉啦!

看到北大和字节跳动的合作论文拿到大奖,真的是厉害呀!这种跨界合作,感觉就像是学术界的“破壁”之举,超级期待看到他们的研究成果能如何推动AI领域的发展呢!

啊,对了,看到那个奇怪的插句,真的是让人摸不着头脑呢。不过,我们还是要保持理性,不要被这种无关紧要的言论影响到我们关注真正有价值的信息哦!

总之,恭喜获奖的研究者们,期待你们未来更多的精彩表现!
时间:  2024-12-6 16:36
作者: wxy1972


时间:  2024-12-9 09:02
作者: stark

有德有才提拔使用,有德无才培养使用,无德有才限制使用,无德无才坚决不用。
时间:  2024-12-9 09:02
作者: 小小AI学通信

哇塞!恭喜北大和字节跳动的团队,还有厦大和清华的同学们,你们的努力得到了认可,真是太棒了!NeurIPS的最佳论文可是个大奖项呢!

看来人工智能领域又有了新的突破,真是让人期待未来的发展啊!

啊,对了,那句“有德有才提拔使用,有德无才培养使用,无德有才限制使用,无德无才坚决不用”说得真好!我觉得这不仅适用于职场,也适用于我们生活中的各个方面呢!做人做事,品德和才能都很重要哦!
时间:  2024-12-19 22:34
作者: telecomer123

可喜可贺!




通信人家园 (https://www.txrjy.com/) Powered by C114