LLM 行业科普和择业建议:选基座or应用?


LLM 行业科普和择业建议:选基座or应用?

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

原文(已授权):https ://zhuanlan.zhihu.com/p/1898012155405664703
近期春招如火如荼,有些学弟学妹私戳我问一些大模型方向怎么选这种问题。我感觉没入行的同学们对目前的大模型行业现状的确不太了解,这里我简单科普一下今年的情况,均为个人观点。
目前的大模型工作,大致可以分为三种:大模型基座,大模型应用,大模型业务。
大模型基座:纯粹的模型工作,以“最好的训练数据、最好的模型结构、最稳定的训练框架、最高效的训练算法、最前沿的技术难点”为目标;
大模型应用:定向增强大模型的某些基础能力,让大模型能更好的落地;
大模型业务:更准确的说法是“业务大模型”,这类工作是以业务为基,大模型为辅的,也就是我们老生常谈的“大模型加持下的搜广推”。
基座团队就不多说了,这几乎是所有大模型从业者梦寐以求的岗位。手握最多的计算资源,做research,发论文,追赶或成为下一个OpenAI——主打一个又爽又卷。我重点强调一下大模型应用,大部分同学对这个方向是有一些误区的,普遍认为“做应用=洗数据=没技术含量”,其实不然,大模型团队的应用岗也是在紧追前沿技术的,agent就是最典型的大模型应用,基本算是2025年最前沿的方向之一了。
虽然大厂现在普遍把自己的大模型团队拆成了“基座/应用”两个团队,但很多技术方向其实是分不开的。math/code这种,既被视为是longcot的关键基础能力,又是下游应用的核心优化目标;roleplay既是指令follow的必备能力项,又是最容易落地的应用方向;agent更是两个团队都想做的兵家必争之地……你中有我,我中有你就是这两个团队的现状。但不得不说,基座团队确实会有更多的资源倾斜和research岗。
大模型业务则是大家一定要想清楚的一个方向,到底是想要稳定的就业岗位?还是想学最前沿的大模型技术?说白了,现在所有的算法方向都在尝试和大模型相结合,很多都是抱着试试看的心态,先做个简单的pe/sft/rlhf,能行就上,不能行就当无事发生。往好了说,搜广推是常青树,这些方向不太存在风险,当大模型的潮水退去,所有的大模型算法同学会像逃难般涌入其中;往不好了说,以业务为基的大模型岗位,可能不太愿意去follow最前沿的大模型技术,大模型只是一个锦上添花的选项,业务指标才是王道。
这里还要提一句,有“大模型基座”的就业机会,基本不需要犹豫,但这不代表投简历的时候可以无脑投大模型基座,投简历多少还是得讲点策略的。举个例子,字节是一个很看面评的公司,如果自己的能力、学历、履历不是特别优秀,就直接投“seed基座”,然后挂了,很有可能导致本来能去的“seed应用”也进不去了。
随着deepseek大杀四方,基座团队的岗位数量急剧下降,招聘的bar也提高了很多。就算能进基座团队,如果是御三家那确实很稳健,但小作坊的基座团队还真有随时不做的风险。所以我觉着新人可以适当提高一下大模型应用和大模型业务的权重,确保有卡用能拿来自学即可。
总之,选团队前一定要打听清楚自己要去的团队是三种团队的哪种,是否符合自己的预期。千万不要凭借JD来进行选择,所有JD写的都是“工作内容包括但不限于sft、rlhf、longcot……”。也不要拿卷不卷来作为选团队的关键因素,放一百个心,大模型没有不卷的团队。当下不卷,回头openAI/deepseek出新东西了也会卷。
最后补充一句,大模型时期,衡量一个团队潜力的核心指标是“算力”。所以,没必要打听某个团队是不是核心团队,需要打听的是这个团队有多少卡,什么型号的卡。注意一些细节,是100台机器还是100张卡?是团队有100张卡还是公司有100张卡?人均有多少卡?自己去了能支配多少卡?
从事大模型工作,最起码的技术自信还是要有的,只要手里有卡,就应该坚信自己能做出来一些东西,至少相信自己能紧跟前沿技术不掉队。这对于一个普通从业者来说已经足够了,至于能不能让自己的团队成为新的御三家,那就要看团队高层的决策能力和技术眼界了。
推荐阅读
R1的一些认知:4个经典误区
用极小模型复现R1思维链的失败感悟
全景解读LLMPosting-Train(后训练)技术
结合代码聊聊FlashAttentionV3前向过程的原理
7B小模型用规则奖励RL学会玩数独!
尝试基于0.5B小模型复现DeepSeek-R1的思维链
关于Deepseek采用EP推理方式的一些思考
吃瓜DeepSeek推理成本需要的相关概念:Throughput、TPOT、TTFT
关于DeepSeekV3/R1Decoding吞吐极限的估计
从DeepSeekR1论文深入理解推理型大模型
复现DeepSeekZero的RL调参经验
DeepseekR1Zero复现全过程记录
开源社区DeepSeekR1最新复现进展汇总
从DeepSeekV3看FP8训练的挑战
进入大模型技术群,备注:进群。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录