通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  二级军士长

注册:2010-4-284
跳转到指定楼层
1#
发表于 2024-11-8 14:47:31 |只看该作者 |倒序浏览





机器之心经授权发布

作者:张逸霄

原文来自知乎博主张逸霄对“大家能分享一下当前博士就业的情况吗”的回答。
人在英国,刚过答辩。今年拿了腾讯 AI Lab(青云计划)、字节跳动(Seed) ,国外有之前实习的 Sony Research 和 Yamaha 的 return offer,国外也有正在面试的 Adobe 和 Meta。这些工作机会的方向都和我的博士工作完全 match,没有转方向的痛苦。

最后,我接了字节 Seed(豆包大模型)团队的 offer,结束秋招。

背景介绍

我是一个方向比较独特的博士,做的是音乐生成。今年年底四年顺利毕业,最后的选择是:接了字节 Seed 的 offer,在工业界继续进行研究。

张逸霄主页:https://ldzhangyx.github.io/

逛知乎的这个方向的同行们应该多少读过我在知乎写的鸟瞰 ISMIR 知乎专栏系列。和很多人一样,我是从其他方向转来计算机音乐方向的,早年我边看边学,留下了一些笔记,现在还挂在知乎里有人不时点赞。

人工智能可以作曲吗?1141 赞同116 评论 回答

链接:https://www.zhihu.com/question/22213757/answer/1168290626





如何看待中央音乐学院首招音乐人工智能方向博士生?更广泛来说人工智能在音乐领域的应用与前景?1083 赞同88 评论 回答

链接:https://www.zhihu.com/question/314142299/answer/612302579

虽然 AIGC 火起来的这两年,看上去音乐生成已经成为一片红海,但我入行的时候并不是这个样子的。甚至我之所以出国读博,是因为国内只有屈指可数的两三个老师有计划培养这个方向的博士(当然现在国内稍微多了一些,央音、上交、港中深等一些学校都开始招收 phd 和工作岗位)。

我在读博的时候,认真考虑过自己博士毕业之后会不会没饭吃,会不会被迫转行。确实是一个扎扎实实的穷方向。大部分人都是在为爱发电,扎扎实实将自己的博士四年投入到音乐方面的各种研究之中。

但是这两年大模型和 GenAI 的风一吹,音乐生成方向突然又行了。我算是一个比较幸运的学生,在行业的 bar 不高的时候入行,在市场壮大之际毕业

找工作过程中,其实有很多感慨。

1. 找工作是一个长久的过程。很多时候,在读博期间建立的 connection 能很大程度上帮助我拿到面试,找到工作。在我秋招的过程中,给我面试的公司,无一例外都是之前建立过联系的同行。我在找工作的时候,能把简历直接递给 hiring manager 之后,整个流程都很顺利。

2.一个领域的工作机会,很多时候更大的决定因素并不仅仅是个人努力。我 2019 年的时候还在做音乐结构分析,而 2023 年之前,计算机音乐方向都是不温不火的方向。现在生成方向搭上了 GenAI 的快车,让更多同行能拿到高薪,但这和他们的选择并没有什么关系;一个公司有没有给 offer,很多时候更可能是很多其他因素导致了这个结果。

这个时候,有一句勉励的话可以恰如其分地用在这里:

世界上没有快乐或痛苦;只有一种状况与另一种状况的比较,只是如此而已。只有曾身受过最深切的悲哀的人,才最能体会最大的快乐。摩莱尔,我们必须经验过死的痛苦,才能体会到生的快乐。所以,我心爱的孩子呀,享受生命的快乐吧!永远不要忘记,在上帝揭露人的未来以前,人类的一切智慧是包含在这四个字里面的:“等待” 和 “希望”。

确实是这样的。

煎熬的毕业前半年

毕业的前半年无疑是煎熬的。因为从这个时候开始,全职的 offer 就可以开始陆续谈下来了 。

我在英国玛丽女王大学 (Queen Mary University of London, QMUL) 的数字音乐中心 (Centre for Digital Music, C4DM) 读的 phd program。实验室近几年保持着 70 余位研究计算机音乐的 phd 学生,从规模上应该是全世界最大的计算机音乐实验室。

这个 phd program 与一般的英国 phd program 的差别在于:英国传统上是三年制,而我的 phd program 是四年制,第四年结束之后可以提交学位论文,这个阶段最长可以有一年。我们称这个阶段为 “writing-up” 阶段。这就使得我接受的 training 像是一个半英半美的结合体。

UKRI Centre for Doctoral Training in Artificial Intelligence and Music www.aim.qmul.ac.uk/





链接:https://www.aim.qmul.ac.uk/

我本科毕业之后没有直接读博,而是 gap 了一年之后申请了 phd。在第一年经历了上课的过渡期之后,我在博二博三期间的产出其实并不算多,加上实验经历并不如同学们那么充分,于是我经历了长达一年的可怕阶段:做什么实验,什么实验 fail。我又是一个科研自尊心很强的人,博三结束之后,我焦虑地整夜整夜睡不着觉。

事实上,那是光明之前的最后黑暗,因为构成我毕业论文的主要的三篇论文,都是在我博三结束到博四期间构思完成的论文。

那个时候要撑过来,其实很感谢我的博导 Prof. Simon Dixon。用我们实验室的话来说,他的风格有点像 big daddy,温暖呵护每一个博士生。虽然他有点上年龄了,不是总能跟得上科研前沿,但他有三个优点:我想做什么,他都支持我去做;他总是正确地指出我科研不成熟的地方,从 idea 完善,到实验设计,到论文写作。把我摆正之后,他又开始放羊。

毕业前半年,我又开始焦虑。我是一个很容易被影响的人,我时不时会有严重的 peer pressure,甚至会时常压迫到自己半夜失眠。这一部分也是因为,不管我博士期间做得如何,我都要上就业市场,面对残酷而不公平的博士竞争了。

作为一个合格的 INTP,我开始做广泛的调研,然后得到了下面的信息。

MIR 领域的毕业选择:高校还是工业界?

尽管我们领域这么冷门,但博士毕业之后的主流出路仍然是两个:高校或是业界。

事实上,我在就读博士期间,对这个选择一直保持 open 的态度。

学术界的选择

学术界来说,目前高校仍然是一个比较卷的选择。可以参考今年大学放出来的名额:





我没有去学术界的原因有两个:

1. 大模型时代,工业界资源更为丰富 。

这一点想必同行们都深有感触。现在需要训练一个参数量比较大的模型,学校实验室的那一点显卡根本是不够用的。如果有机会去公司实习,有足够的 A100,H800 可以用,那么很多 idea 才有实现的可能。

我认为未来几年里,工业界和学术界的差距可能会进一步增大。这使得在学术界的产出可能会受到经费的影响,难以做出跟进前沿的工作。

2. 大团队作战的工业界实质上领先于学术界 。

这一点也可以从这两年大模型的突破性工作的比例看出来。最具代表性的工作,基本出自 Meta,Google 这些公司的团队作品,这一点音乐方向也是差不多的。

换而言之,如果要上大模型的战车,那么工业界是一个更加实际的选择。

工业界的选择

来看一下目前涉及音乐业务的工业界版图:

大厂:

  • ByteDance(经费充足,研究人员多,产出稳定)
  • Meta(音频组兼做音乐,研究人员多,不专一,报酬丰厚)
  • Google DeepMind(经费充足,研究人员中多,公司导向不开源)
  • Adobe(经费中等,研究人员少,侧重编辑产品落地,学术界活跃)
  • NVIDIA(经费中等,研究人员少,音频组兼做音乐)
  • Sony Research & Sony CSL(经费较少,研究人员多,气氛最接近学术界的公司)
  • Spotify (欧洲知名大厂,经费充足,产出稳定,气氛优秀)
  • Apple (Apple Music 和 Shazam 部门,整体来说是比较四平八稳的产品部门)
  • Dolby(研究做得很不错,只是 Music 研究比例不高)
  • Bose(音频组有时做一些音效研究)
  • Microsoft Research Asia(虽然产出多,但是名额少,而且不是核心项目)
  • 腾讯 & 腾讯音乐 TME(经费中多,研究人员多,注重产品转化)
  • 网易云音乐(经费中等,最近学术产出急剧下滑)
  • 华为中央媒体研究院(base HK,有一些音乐研究人员,最近成果多起来了)
中小厂:

  • Suno(目前在积极招人)
  • Stability AI(前公司还是很有感情,很有活力的 start-up)
  • Udio(不知道在不在招人)
  • Riffusion(创业公司)
  • Music AI(前 Moises,人数不多,学术研究气氛还不错)
  • Deezer(欧洲知名公司,学术上很有名气)
非 AI 公司:

  • Yamaha(经费中等,AI 研究人员少,非常专注于做很 music 的方向)
  • Steinberg(Yamaha 子公司,AI 研究人员少,注重产业化)
  • iZotope & Native Instrument (近年有一些 AI 技术和论文,但不多)
  • BBC (我们实验室的合作公司,总体上做得偏音频)
  • Universal(就是那个环球音乐公司,研究人员少,但是也有学术产出)
更多的我就不列举了。

当然,值得多说一句的是,这些公司并不是一直在招人。很多情况下,音乐相关的岗位一年可能只有寥寥数个,相对于 GenAI 的大方向来说,确实不是性价比很高的方向。

最后的选择:字节跳动 Seed 音乐团队(SAMI)

借用一句朋友的话,在团队里工作是这样的:

找到了一个自己愿意醉心研究的领域,获得成就感和自我实现的同时,还能获得非常对得起自己付出的经济回报。

总体来说我觉得十分贴切。

在读博期间,我和字节跳动保持着一定的关系,但并未直接合作过。基于这层原因,我和字节跳动做 MIR 的同行们,也就是现在的同事们,持有相互的联系方式。

字节跳动内部一直维持着一个做音乐的大团队,叫做 SAMI(Sound Audio Music Intelligence)。SAMI 团队在过去的很长一段时间里,保有美国、英国和中国的团队协作,也一直是我们领域的学术会议常客。可以用这样一句话来说,每一个入行 MIR 的研究者,都会很快认识一个 SAMI 员工,或者前员工

虽然 MIR 领域做的人不多,一篇论文有 50 引用就是比较高的引用了。SAMI 这样的论文不在少数,并且遍布 MIR 的各个方向。举几个例子,我们领域的人应该多少听过:

  • 音频编码器 PANNs:https://ieeexplore.ieee.org/abstract/document/9229505/
  • 钢琴音频转 MIDI 的重要数据集 GiantMIDI-Piano:https://arxiv.org/abs/2010.07061
  • 最早的 text-to-music 模型之一,MeLoDy:https://proceedings.neurips.cc/paper_files/paper/2023/hash/38b23e2328096520e9c889ae03e372c9-Abstract-Conference.html
  • TTS 基座大模型 Seed-TTS:https://arxiv.org/abs/2406.02430
  • Music 基座大模型 Seed-Music:https://arxiv.org/abs/2409.09214
  • 组里还不乏一些特定的精致研究:
  • 音乐结构分析的重要模型:https://ieeexplore.ieee.org/abstract/document/9747252
  • 专用于 MIR 各类任务的当时最好的模型之一:https://ieeexplore.ieee.org/abstract/document/10448314
于是在 2024 年 3 月,在我毕业的前 8 个月,收到 ByteDance 的面试邀请的时候,我并没有犹豫便答应了。

面试流程

由于保密协议限制,我不能描述更多细节,只能大致说一下时间线。

  • 2024 年 3 月,我收到了现在直属上级的邀请。
  • 2024 年 4 月,第一轮面试到第三轮面试。
  • 2024 年 5 月,和我的直属上级的直属上级约了 slot 进行一对一谈话。
  • 2024 年 5 月,我提出了 package 的疑虑,字节讨论后给了一轮涨薪(可以看出字节给优秀 phd 的待遇还是相当好的)。我当日就签下了 offer。
  • 2024 年 10 月,我在上海提前入职。
说一下面试期间经历的事情。

我的面试战线说长不长,说短不短。因为我在上市场的时候,第一个接到的面试邀请就来自字节跳动,甚至来自我现在的直属上级。

我当时同时拿到的 offer 不少,其实选择上是比较多的,于是我花了大约一个月的时间去约我认识的工业界和学术界的同行,去刷一亩三分地看大家的选择。

所以我最后为什么会选择字节呢?

1. 第一点是因为确实是方向的 match 程度位于前列。

这两年,随着大模型的发展,我逐渐意识到自己一个人单打独斗,已经很难在很基础的领域有很大的突破了。我渴望自己有高水平的合作同事,渴望一个算力充分的实验室,渴望一个专心致志做音乐研究的地方。

虽然上面提到了那么多公司,但是我个人认为能在音乐大模型和 MIR 上有长期竞争力的公司,目前看来只有 Google DeepMind 和 ByteDance,原因我在上面做了解释。而随着 2023 年 DeepMind 逐渐转向封闭式科研,不将自己的第一手产出公之于众,ByteDance 在学术方面反而是一个独树一帜的存在。

2. 第二点是字节,尤其是 Seed 团队,能够开出很有竞争力的条件。

  • 首先是钱的问题。在这些选择里,字节给出的包比别的选择都更多。
因为保密协议,我能说的很有限,但是 @丁霄汉 博士(同时也在字节)可以帮我作证,字节给的 package 是一流的,十分符合我对人才计划薪水的期望。

这里尤其推荐有水平的 phd 来试试字节的 TopSeed 人才项目。不仅加入核心团队,而且薪水给得非常理想。

  • 公司重视程度的问题。
SAMI 目前在关注大模型条件下的音乐和音频的各种各样的有趣科研问题。Seed 团队目前是 ByteDance 的研发主力团队,我看到的公司资源和投入都在往组里倾斜。

这包括了我闻所未闻的显卡数量(字节内部计算平台 Merlin 有多好用一些同行应该也有所耳闻),远超我自己之前实验室的算力资源;从战略上,豆包大模型目前是公司的发展侧重点。目前来看,团队内部的科研气氛还是十分浓厚的;在经费和投入的稳定性上,足够我支撑未来 3-5 年的持续科研研究,而不要担心自己被频繁的业务调动而去分配做自己不愿意做的工作。

正如我之前所说,SAMI 在技术的沉淀上是充分的。在入职之后,我看到了海量的内部技术文档,涉及到公开和未公开的各种实验,说实话让人十分感慨。在音乐生成和 MIR 这个小众方向,有了这些实验数据,说是少走几年弯路也不为过。

  • 技术转化的问题。
组里的技术主要落地在豆包 app 和海绵音乐 app 上面。目前能给出音乐生成从科研学术产出,到产品落地,完成整个闭环的大厂选择并不多,字节 > 腾讯音乐 > 网易云和其他公司。

我觉得这也是工业界独有的魅力之一,那就是能和组里的工程同事通力合作,看到技术被实际转化的那一天。我觉得这也算是不违反我进入音乐科研的初心的。

3. 有什么纠结的点呢?

纠结的点也有。首先是大家都默认的,字节的工作强度确实不低。然而,由于我不幸做的是 LLM 和 GenAI,这是一个发展极快的方向,据我所知 Meta 和 Adobe 这些传统意义上福利给足的美国大厂,在这个方向也要求员工优胜劣汰。我在一亩三分地上看到了很多相关讨论,不少人指出 Meta 这个方向也在无休止地 996 工作。这样对比下来,字节的工作强度并没有那么突出,尽管这是一个颇有黑色幽默的结论。

可能是因为我自认为自己还在职业和学术的上升期,愿意在未来三到五年里继续秉承着一股冲劲认真科研,将自己保持在学术一线。从这层意义上来说,工作和人是双向选择的过程。也许之后有一天,我经历了足够多,我会选择离开工业界,去找一份更加轻松的科研工作。

原文链接:https://www.zhihu.com/question/559157484/answer/25240942309


来源:网易

举报本楼

本帖有 1 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2024-12-5 10:22 , Processed in 0.274408 second(s), 16 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部