大模型算法工程师经典百问

发布日期: 2025-04-15

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

本人是某双一流大学硕士生，也最近刚好准备参加2024年秋招，在找大模型算法岗实习中，遇到了很多有意思的面试，所以将这些面试题记录下来，并分享给那些和我一样在为一份满意的offer努力着的小伙伴们！！！
大模型算法工程师经典面试题————LLM大语言模型之Tokenization分词方法（WordPiece，BPE，BBPE)原理
大模型算法工程师经典面试题—：为什么在softmax之前要对attention进行scaled（为什么除以d_k的平方根）？”
大模型算法工程师经典面试题————为什么Bert的三个Embedding可以进行相加？
大模型算法工程师经典面试题————为什么现在的主流大模型都是decoder-only架构？
大模型算法工程师经典面试题————为什么现在的主流大模型都是decoder-only架构？
大模型算法面试题————为什么transformer是LayerNorm？
大模型算法面试题————大模型幻觉是什么，如何才能缓解这个问题？
模型算法工程师经典面试题————如何让LLM基于问题和context生成高质量的回答？
阿里面试官问：Self-Attention的时间复杂度/空间复杂度是怎么计算的?
阿里面试官：Transformers中的Softmax可以并行加速么？
学妹问：硕士校招生进入大模型领域工作，选预训练还是SFT？
面试官问：深度网络中loss除以10和学习率除以10等价吗
腾讯面试官问：RWKV、Mamba和Mamba-2的核心原理和创新之处是什么？
NLP经典面试题：RLHF训练过程是怎么样的？DPO如何解决RLHF存在问题？
LLMs经典面试题————为什么KVCache没有Q-Cache？
大模型面试帖——LoRA最硬核面经
NLP经典面试题————Transformer中前馈层（FFN）的作用是什么？
大模型经典面试题————如何解决大模型推理过程中的延迟问题？
现在LLM的大小为什都设计成6/7B、13B和130B几个档次？
在PyTorch框架中model.train()和model.eval()的作用是什么？
NLP经典面试题：RLHF训练过程是怎么样的？DPO如何解决RLHF存在问题？
为什么BERT使用多头注意力机制以及它与直接使用一个大矩阵进行统一计算的区别？
为什么NLP用Layernorm而不是batchnorm？
阿里面试官问：什么是softmax上下溢出问题？
BERT中的多头注意力机制-为什么需要多头？
阿里面试官问：为什么vllm能够加快大模型推理速度？
字节面试官：transformer里PE为什么不采用concatenation的方式？
大模型SFT不就好了，为什么还要RLHF？
面试官问：大模型领域，有哪些提高大规模模型的训练和推理效率库？
阿里面试官问：为什么Transformer的FFN需要升维再降维?
面试官问：如何在搜推广中利用LLM
面试官:大模型的量化为什么不会失之毫厘谬以千里？
Transformer面试常考题快问快答
面试官：解释下大模型微调中的灾难性遗忘问题
面试官：解释一下卷积神经网络（CNN）的基本结构
大模型算法岗面试准备篇（一）——如何进行自我介绍？
面试官：Adam和AdamW有什么区别?
TransformerEncoder/Decoder结构中的掩码Mask介绍？
面试官问：为什么深度学习需要tensor而不是numpyarray?
面试官问：如何克服神经网络训练中argmax的不可导性
小米二面:QLoRA和LORA有什么区别?
大模型算法岗面试准备篇（二）——如何想面试官介绍实习经验？
阿里面试官问：为什么vllm能够加快大模型推理速度？
BERT中的多头注意力机制-为什么需要多头？
阿里面试官问：什么是softmax上下溢出问题？
为什么NLP用Layernorm而不是batchnorm？
如何缓解RL过程中的对齐税?
deepseekv3生成答案的速度为什么可以这么快？
大模型面试题：为什么LLM推断中缓存KV比缓存Q更有效?
美团面试官问：MHA/MQA/GQA的区别是什么？
NLP经典面试题：RLHF训练过程是怎么样的？DPO如何解决RLHF存在问题？
在PyTorch框架中model.train()和model.eval()的作用是什么？
大模型经典面试题————如何解决大模型推理过程中的延迟问题？
NLP经典面试题————Transformer中前馈层（FFN）的作用是什么？
LLMs经典面试题————为什么KVCache没有Q-Cache？
面试官问：深度网络中loss除以10和学习率除以10等价吗
大模型面试题——大模型部署框架对比
学妹问：硕士校招生进入大模型领域工作，选预训练还是SFT？
阿里面试官：Transformers中的Softmax可以并行加速么？
阿里面试官问：Self-Attention的时间复杂度/空间复杂度是怎么计算的?
大模型算法工程师经典面试题————如何让LLM基于问题和context生成高质量的回答？
大模型算法面试题————大模型幻觉是什么，如何才能缓解这个问题？
大模型算法面试题————为什么transformer是LayerNorm？
大模型算法面试题—为什么现在的主流大模型都是decoder-only架构？
大模型算法工程师经典面试题————Attention为什么要除以根号d？”
大模型算法工程师经典面试题————KVCache原理是什么？
大模型算法工程师经典面试题————Transformers中的Softmax可以并行加速么？
大模型算法工程师经典面试题————Transformers中FFN的作用？
大模型算法工程师经典面试题————Transformers中的PositionEmbedding的作用？
大模型算法工程师经典面试题————如何根据模型参数量估计需要的显存？
大模型算法工程师经典面试题————为什么Bert的三个Embedding可以进行相加？
【面试题】华为-交叉熵(crossentropy)，KL散度的值，到底有什么含义？
大模型面试：“分布式训练常用的通信后端都有什么？应该怎么选？”
大模型算法面试题—Prompttuning、PET、Prefixtuning、P-tuning的原理区别与代码解析一
大模型算法面试题—Prompttuning、PET、Prefixtuning、P-tuning的原理区别与代码解析二
大模型算法面试题————为什么LLM推理加速有KVCache而没有QCache？
大模型算法面试题————LoRA面试题汇总
大模型算法面试题————如何提升llama3训练数据质量？
【面试题】阿里-BeamSearch的缺点？
大模型算法面试题————大模型幻觉是什么，如何才能缓解这个问题？
【面试题解答】解释PPO,DPOandKTO?!
【面试题解答】问了Transformer内存优化!
【面试题解答】大模型预训练数据如何预处理？
【讨论】2024年，diffusion还有什么可做的?
【面试题解答】大模型中的响应延迟怎么解决？
如何确保检索到的数据是高质量的?[RAG相关]
RAG有哪些流程，流程里各有什么优化手段?[RAG相关]
PPT自动生成思路，有没有开源的好项目[AIPPT]
如何计算大模型推理服务的每秒请求数（QPS）？[大模型推理性能测试]
首Token延时（TTFT）与平均输入Token数量之间存在怎样的关系？[大模型推理性能测试]
首Token延时（TTFT）与平均输入Token数量之间存在怎样的关系？[大模型推理性能测试]
在实际聊天应用中，如何估算并发用户数（VU）？[大模型推理性能测试]
介绍一下ReAct？[agent]
解释一下AgentReflection模型？[agent]
如何针对比较长的文本表格进行检索?[RAG相关]
如何优化检索过程，以减少延迟和提高效率？【答案】
如何处理数据中的偏差和不一致性？【答案】
如何提高模型的泛化能力？【答案】
简答题：文章中提到了多种GPU间通信的方式，包括PCIe总线、NVLink和InfiniBand网卡。请简述这三种通信方式各自的特点以及它们通常被用于哪些场景。【答案】
填空题：在文章中，提到了Deepspeed使用的Zero优化技术可以进一步压缩训练时显存的大小，以支持更大规模的模型训练。Zero优化技术主要通过________、________和________来减少显存占用。
介绍一下DPO损失函数？
大模型DPO存在致命缺陷？
大模型训练，什么时候需要预训练？什么时候需要sft？什么时候需要dpo?
介绍一下Attention？
传统Attention存在哪些问题？
Attention优化方向有哪些？
介绍一下Multi-headAttention、Grouped-queryAttention、FlashAttention？
有哪一些谣言检测方法推荐？
大模型输出的时候带出相关文档这个功能吗？这个是后处理还是使用大模型自己总结出来的？
什么是scalingtest-time,分别有哪些方法实现？
什么是token-wise，什么是step-wise
请描述什么是RPM,什么是best-of-N/best-of-N-weighted/beamsearchRPM/LookAheadSearch
如何利用大模型做聚类吗？
如何利用大模型自动生成长篇报告？
embedding模型为何普遍都用encoder-only架构
为什么现在的LLM都是Decoderonly的架构
深度学习中，批量归一化有什么好处？
深度学习的batchsize必须是2的n次方吗？
advanced-RAG你知道有哪些？
self-rag有哪些insight，结合工作业务场景，设计知识库问答方案？
agent和faq结合尝试过没有这两个怎么结合啊？
Agent里的Memory是什么？
为什么需要DPO算法，DPO算法直觉与SFT算法区别，如何理论的分析？
如何评价RAG项目效果的好坏？
RAG使用外挂知识库主要为了解决什么问题？
详细说说Deepspeed的机制？
大模型的幻觉问题、复读机问题是什么？
为什么大模型中的响应延迟怎么解决？
大模型提速有哪些比较好的策略？
在PyTorch框架中model.train()和model.eval()的作用是什么？
大模型推理时，显存中有那几部分数据？
介绍一下Multi-headAttention？
为什么Transformer需要进行Multi-headAttention？
LSTM、CNN相对于Self-Attention存在什么问题？
介绍一下Self-Attention？
为什么Self-Attention中需要除以sqrt(dk)
一列数据在不知道具体有哪些类别的情况下，如何进行分类？
现在都有哪些小于1b的中文大模型？
有大模型长文本摘要生成任务，减少露召，冗余和幻觉的办法吗？或者项目推荐？
介绍下GLU激活函数和SwiGLU激活函数？
LLaMA1/2/3的异同？
介绍下LLaMa关键技术点？
ragflow和llamaindex区别？适应性？
Attention为什么使用MultiHead?
提示工程中的Zero-shot、One-shot、Multi-shot：它们到底是什么？
【面试题解答】为什么transformer的FFN需要先升维再降维?
【面试题解答】字节-“大模型的参数量为什么设计成7B，13B，33B，65B等如此怪异的数字？”
【面试题解答】model.eval()会像torch.no_grad()那样停止中间激活的保存么？
【面试题解答】大模型上线前为什么要做推理优化？
大模型训练如何评估数据集质量
【面试题】校招-“为什么Qwen设计成72B？
现在大模型为什么都用leftpadding？”
【面试题】深度学习中如何平衡多个Loss?
RWKV、Mamba和Mamba-2的核心原理和创新之处是什么？
介绍一下BeamSearch最坏时间复杂度是多少
关于我：已get头条、阿里、美团算法实习offer。我师兄去年拿了头条、百度、美团、阿里秋招offer。
本指南适用人群：还找招实习的同学，希望GetIT大厂算法类研发Offer的大佬们。
注意：鉴于这是一篇指导如何getBATTMD等知名大厂offer的指南，因此对读者本身期望也较高，在普通人看来可能不易做到、不那么友好，这里提前说明，请不要说我“何不食肉糜”。换句话说，这是教70分的人如何考到95分的，如果你的期望是60分万岁（找个小企业混温饱就可以了），可能它并不适合你。
为什么想要写这么一篇指南呢？说起来，我从今年春节开始准备春招简历，到如今三月中下旬，终于拿到了想要的offer，准备去实习了，给我的半年仍多的实习季画上句号。期间有过被拒到怀疑人生，也有过被突然的机会砸得喜出望外，更是见识过身边各种大佬因为各种“莫名其妙”的原因与offer失之交臂，所以今天这个结果离不开自身努力，也离不开冥冥中的幸运。写这么一篇文章还愿自己身上的幸运“buff”，同时也想让更多和我一样在为一份offer努力着的大佬们不要因为“没经验”产生的失误，而与梦想失之交臂。
春季招聘（简称春招）是诸多互联网领军企业面向在校学生的实习生招募活动，通常在春节假期结束后不久便启动简历接收流程，如阿里巴巴等企业在新年伊始即展开行动；而整个春招周期可能延续至五六月份，像美团等公司在这一阶段仍可能安排面试环节。春招的核心目标在于通过获取在大型互联网企业的实习岗位，从而把握住转为正式员工的机会，或者积累宝贵的实习经验以增强秋季校园招聘时的竞争力。各企业的实习转正比例依据其内部政策和具体业务部门需求差异较大，大致区间在50%至95%之间，但值得注意的是，滴滴等个别公司的情况较为特殊，实习生成功转正的比例相对较低。
参加春招的实习生通常被期望在暑假前加入并开展实习，若能提前实习自然是加分项，理想的实习期至少应维持三个月，以满足大部分企业的基本实习期限要求，而六个月以上的长期实习则更有助于提高转正成功率。对于仅有暑假两个月时间可供实习的学生来说，可能会担忧时间限制成为障碍。尽管在应聘时明言仅能实习两个月的确可能影响录用，但实际上，如果在应聘时承诺实习三个月，而在实际实习两个月后提出离职，多数情况下企业并不会严格追究未满规定期限的问题。这一点在春招过程中至关重要，它直接影响到能否抓住这次关键的职业发展机遇。
FAQ：
q1：一定要参加春招么？错过了怎么办？
除非个人能力已达到无需实习经历就能有力佐证的程度，否则积极参加春招以获得实习机会显得尤为关键。据我师兄亲身经历为例，他在参加秋招时，相较于春招简历，唯一的显著优势就在于增添了在今日头条的实习经历，而这使得他在某BAT级别企业中的简历评价从B级跃升至A级。从实际面试过程来看，拥有了名企实习经历后，我感觉顺利通过面试的难度明显降低了约20%。普遍的观念是，既然知名公司愿意提供实习机会给你，那么你的能力应当得到了一定的认可。
假设未能把握住春招机遇，或者遗憾地在春招中未能取得实习职位，倘若自我评估认为基础知识尚欠扎实、需要通过大量习题训练来提升自己，此时完全可以静心专注于刷题与准备秋招，毕竟扎实的专业功底与应对笔试面试题目的能力才是硬实力的体现。然而，若你觉得自己的笔试面试技巧已然过关，仅是欠缺一份亮眼的实习经历来完善简历，那么在投递时不应仅仅局限在大厂，不妨广泛向各类规模的企业投递简历，敞开接受各种可能性，说不定就会找到一个与自身背景匹配度高的实习岗位。
方式一：通过已经上岸的师兄师姐直接内推，该方式的成功率相比于下面其他方式会高很多；
方式二：获取招聘信息的过程相当简便易行，只需开启您的网络浏览器，在搜索栏输入您心仪的目标互联网企业的名称+“校招”，例如“阿里巴巴校招”或“腾讯校招”。接下来，访问这些企业的官方网站，即可查阅最新的校招信息；
方式三：建议您充分利用一些专门平台和社区资源，如著名的北邮人论坛（尽管需借助在校北邮同学的帮助获取账户权限）；
方式四：牛客网的求职讨论区，这些渠道往往汇集了丰富的招聘信息。
方式五：计算机科学领域内的知乎意见领袖们也时常会在平台上分享招聘信息，甚至乐意为符合条件的候选人提供内部推荐服务。
回顾我个人的经历，在春招时期获得的面试机会主要来源于师兄师姐内推、北邮人论坛、牛客网求职评论区等招聘信息后所获得的。
在某个交流群组中，我和一些同伴进行过深入交谈，其中有些伙伴透露出他们来自非顶尖学府，同时也缺乏参加专业竞赛的经验，因此他们在寻找第一份实习工作时感到格外困扰。面对这种情况，我认为尤为重要的一点就是拥有一个高质量的个人项目。一个优秀的项目能够展示出你在专业领域的实践能力和创新思维，它可以弥补学历背景或是竞赛经历上的不足，让你在众多应聘者中脱颖而出。这样的项目不仅体现了你的技术实力，还能证明你具备独立解决问题和自我驱动学习的能力，这对于许多雇主而言，是非常看重的素质。所以，即使没有名校光环或丰富的竞赛经验，只要你能精心打造并展示出一个出色的项目成果，同样有可能叩开理想实习的大门。
所以回过来：如何准备一个优秀的项目呢？
首先，你准备的项目必须要和你想投递的岗位密切相关（eg：假如你想投递NLP算法实习生，但是你简历里面写得都是一些CV项目、数据挖掘、后端开发项目，那么这些项目对于你找工作来说，并不会提供多大的帮助，相反，这些项目将会阻碍你简历面的通过率），代码量要足够，一般来说几百行的代码是没太多内容的，即便是有几千行代码，也不能改变它并不复杂的这个现实，不适合写在简历上；
你需要知道这个项目技术难点是什么，或者说这个项目相比于其他人的同类项目，亮点在哪？（eg：假如你在简历里面写了一个分类项目，然后介绍你是如何标注数据的、项目模型的，但是问题来了，这个过程的亮点在哪里？）调研和跑了很多模型不叫难点、用了一堆开源库也不叫难点、debug了3天发现变量不小心拼写错了和写了一万行ifelse更不叫难点，最起码是google上搜了2页找不到很好的解决方案的一个问题，或者是完全自己编写的一个组件/模块/trick，能够让面试官听起来感觉“嗯，是有点意思”的才叫难点；
这个项目的代码要么完全放出来让人能看到，商业项目不方便放出源码的话请放出作品地址。
在这里感谢公众号《关于NLP那些你不知道的事》作者杨夕大佬的细心指导和项目推荐。
简历要写的内容，姓名、联系方式、投递岗位、学历、个人简介（可选）、竞赛经历（可选）、实习经历（可选）、项目经历。
联系方式：手机、邮箱（推荐gmail，鉴于有些HR的奇怪口味不推荐QQ邮箱）
学历：985211学校计算机相关专业请把学历写到前边，明显一点；北邮以及窝工之类有cs双一流学科的cs强校计算机相关专业，能把学历写多明显就多明显，不行就黑体加粗！成绩排名前20%的请注明成绩及排名，前5%的能写多明显就写多明显！四级没必要写了，过了六级(超过425分)可以注明分数。不符合以上几条描述的，请偷偷地把你的学历模块往后放放，字写小点，但不能不写，不写一定会被打的。
个人简介：写一下熟练使用和了解的技术，还有些套话照着招聘需求写就可以了，github和博客放一下。如果学历、竞赛、实习、项目都很不错的话，可以不写个人简介，把宝贵的简历版面留给其他更引人注目的模块。
竞赛经历：省级以上cs相关竞赛。课程设计第一名或者校三好之类的就不要写了，作为技术岗，需要技术类竞赛来说明实力，面试官并不太care你评三好或者学生会主席之类的经历。
实习经历：有好过没有，大厂好过小厂。需要把实习期间做的项目也写上，写法跟项目经历类似。
项目经历：项目背景、项目需求、团队规模、你做的工作、技术栈、难点，能够分条列举最好，2-3个项目，每个描述150字以内。
简历模板：不需要很花哨，平庸的就是好的。推荐QQ邮箱中一个隐藏的简历制作功能，需要自己打开简历模块；或者像我自己的是用markdown写的，打印成pdf格式。
简历命名：名字-岗位-学校（可选）-手机.pdf
在简历准备过程中，杨夕大佬帮我修改了4-5次简历，并从简历排版到内容都做了很多次多次的修改和审阅，才让我能顺利通过简历面，获得很多大厂的面试机会。
网申这一块相比于前面环节简单很多，只要去官网留意时间不要错过就行了。
不敢需要重点提醒：如果有内推机会请走内推通道，根据个人经历而言，很多面试机会都来自于内推。
根据个人经验，从零开始系统性地备战笔试可能需要大约两个月的时间，但请注意，这个时间预估基于我个人的基础状况，我并未经过专门准备便直接参加了笔试。每个人的基础知识储备和学习效率各异，故请大家根据自身实际情况灵活调整备考计划。
下面按照准备的重要程度由高至低列出笔试复习的主要内容（此处所述的所有百分比均为个人主观判断，并无具体数据支持，仅供参考）：
（估计占比30%）：这是大多数技术类笔试的重点，包括但不限于排序、查找、树、图、动态规划、贪心算法、回溯法等经典算法，以及数组、链表、栈、队列、哈希表等各种数据结构的理解与应用。
（估计占比20%）：熟练掌握一门或多门主流编程语言（如Python、Java、SQL、C++等）的基本语法、面向对象设计、异常处理、并发编程等基础知识。
（估计占比40%）：理解机器学习、深度学习、自然语言处理、大模型等相关知识，可能涉及分布式训练、推理加速等方面的问题。
（估计占比5%）：部分公司笔试会包含一些智力题或逻辑推理题目，旨在考察候选人的逻辑分析能力和快速反应能力。
（估计占比5%）：针对目标公司的特定技术领域进行了解和学习，比如某些公司的笔试可能涉及大数据处理、人工智能、前端开发等领域的相关知识。
请根据目标企业的笔试风格和职位需求，有针对性地制定自己的复习策略。同时，实战练习与模拟题库的演练也是提高笔试成绩的有效途径。
技术面试一般2-3场，hr面在最后一场。就我的经历而言，算法一面挂说明离公司要求差的较远；二面可能是算法深度还不够，知其然不知其所以然；三面和HR面挂可能是大boss觉得你不够“灵性”有潜力，HC(headcount)不够，面试评价一般于是在备胎池里等跟运气关系较大的因素。
面试会问的东西，基本就分四类，方向相关的技术知识，项目/实习经历（遇到最大的一个困难是？），自然语言处理（集中在Transformer、Bert），大模型（集中在LLama系列、qwen系列、RAG、Agent），算法题（有可能要手写）。
最重要的一点，准备面试一定要上网搜面试题，照着面试题清单准备，以避免遗漏知识点，很重要！在你去看别人整理的面试题前，你是不会知道你的知识树哪里有疏漏的。也很推荐自己每次面试后记录下被问的问题，整理出知识盲区和高频考点，重点准备高频考点的内容，想办法将回答答得更详细，面试过程中一个（比别人）详尽而有深度的回答也是亮点