Meta万引强化进修大佬跑！用小扎原话做为拜别寄-乐虎- lehu(游戏)唯一官方网站

　　第二年，他就前去的Mila研究所申请PhD，因为和面试官之一Aaron Courville（和Bengio等人合著了《深度进修》这本典范教材）正在强化进修范畴的研究标的目的“完全不异”，就地就被邀请并插手其团队。

　　而正在谷歌工做期间，上下文冲破100万）、Gemma 2（新一代轻量级开源模子）、Gemma 3等主要模子的发布工做。

　　Rishabh Agarwals，谷歌学术论文被上万次援用，h-index也有34。

　　颇具戏剧性的是，Hinton还曾他“不要做强化进修（RL）”，不外话锋一转，老爷子也留不足地——该当做本人认为最好的工作（终究他本人昔时做的事也不被所有人看好）。

　　Meta组建超等智能团队的设法很是惹人瞩目，但我最终选择扎克伯格的：“正在这个瞬息万变的世界里，最大的风险就是不去冒险。”。

　　不外猜测也好，吐槽也罢。对于Rishabh Agarwal的去职，谷歌、Meta的同事们都清一色地奉上了祝愿，并且还顺带回首了他正在工做期间做出的贡献。

　　接下来的四年时间，他正在Aaron Courvilleh和Marc Bellemare两位顶尖导师的指点下继续深耕强化进修，同时还保留着正在Google Brain的全职工做。

　　决定不插手新的超等智能尝试室并不容易，终究那里人才辈出、算力爆棚。但正在Google Brain、DeepMind和Meta渡过了7年半之后，我更想冒险去测验考试一条完全分歧的。

　　目前Rishabh Agarwals的下一坐并未明白，不外按照他“想要测验考试完全分歧的一条”的说法，人们猜测大要率会是创业。

　　曲到2023年，Marc Bellemare发了一条提前庆贺他通过博士结业答辩的推文，连谷歌首席科学家Jeff Dean如许的大佬也赶来恭喜。他顺理成章地插手谷歌DeepMind团队，担任研究科学家，同时正在麦吉尔大学做兼职传授。

　　据领会，他参取了谷歌Gemini 1。5、Gemma 2以及Meta推理模子后锻炼方面的主要工做，2021年还以一篇RL算法评估论文拿下了NeurIPS精采论文。

　　其实不止Rishabh Agarwals，几乎统一时间，一位正在Meta工做了12年的老员工也颁布发表去职了。

　　简单来说，这篇论文阐发了深度强化进修中的统计不不变性问题，指出正在无限尝试下评估算法可能产素性成果。因为系统性了RL中的方差问题取过拟合风险，被认为是评价RL算法的里程碑工做。

　　此前就有动静称，Meta新老员工之间因薪酬待遇悬殊而发生摩擦，此中一些研究人员以至要告退。