字节推荐算法暑期实习一面面经

发布日期: 2025-05-06

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

最近刚面试完《字节推荐算法暑期实习一面面经》，现在需要对面试的问题进行重新复盘。
本来没想着走推荐的，他们把我捞起来了。
Q1:拷打论文项目
Q2:deepseek有哪些创新点
DeepSeek是一个多专家门控（MoE）模型，其创新点包括：
MoE架构：通过将注意力机制分解为多个专家来提高计算效率。
损失函数设计：引入了设备级平衡损失函数，用于优化模型性能。
多任务模型优化：结合了MoE和MLP等技术，提升了模型的泛化能力和效率。
Q3:deepseekmoe中的设备级平衡损失函数是什么?
DeepSeekMoE中的设备级平衡损失函数（Device-LevelBalanceLoss）用于确保不同设备之间的计算负载均衡，从而提高硬件利用率和整体训练效率。其公式如下：
其中：
是第个设备组内专家的选择频率；
是第个设备组内专家的激活概率；
是控制设备级平衡损失的超参数，通常设置为较大的值以促进设备间的负载均衡。
具体计算过程如下：
对于每个设备组，计算专家的选择频率，公式为：
其中是路由到第个专家的token比例，是第个设备组中专家的数量。
计算每个设备组内专家的激活概率，公式为：
其中是第个专家的平均激活概率。
将上述结果代入损失函数公式，得到设备级平衡损失。
设备级平衡损失的设计目的是在缓解计算瓶颈的同时，避免对专家负载的过度约束，从而不会损害模型性能。
Q4:手撕MHA
Multi-HeadAttention（MHA）是Transformer模型的核心组件之一。
MHA原理：MHA通过将输入数据投影到多个线性子空间中，分别计算注意力权重，然后拼接并线性变换输出。
代码实现：
Q5:一道非leetcode贪心算法题在面试官的友好引导下还是磕磕巴巴写了出来
Q6:机器学习中过拟合怎么处理,
过拟合是机器学习中常见的问题，可以通过以下方法解决：
增加训练数据量：扩大数据集以减少对训练数据的过度拟合。
正则化技术：如L1/L2正则化，通过惩罚权重项来约束模型复杂度。
Dropout：随机丢弃神经元以减少模型对特定特征的依赖。
早停法：在验证集上监控性能，当性能不再提升时停止训练。
模型简化：减少模型复杂度，如降低神经网络层数或节点数。
Q7:机器学习中特征选择怎么做。
特征选择是提高模型性能的重要步骤，常用方法包括：
过滤式方法：基于特征与目标变量的相关性进行选择，如卡方检验、互信息等。
包裹式方法：将特征选择视为一个子集搜索问题，通过评估不同特征组合的性能来选择最优特征。
嵌入式方法：在模型训练过程中自动进行特征选择，如随机森林中的特征重要性。
相关性分析：通过相关性矩阵或CFS算法去除冗余特征。
感觉前面大模型相关答的都挺好的，就是损失函数没背出来。两个简单的机器学习的问题倒不会，狠狠补课。
星球旨在分享AI算法岗&开发岗的秋招准备攻略、心得体会、内推机会等。涉及深度学习，机器学习，计算机视觉，自然语言处理，SLAM，大数据，数据分析，自动驾驶，C/C++，Java等方向。群主和嘉宾既有往届参加校招拿到Offer(含BAT/独角兽等大厂Offer)，也有已经毕业工作的算法研究员/工程师和软开工程师。…
星球非免费。定价60元/年，0.136元/天。(每+100人，+20元。元老福利~）
一是运行有成本，我希望它能自我闭环，这样才能长期稳定运转；
二是对人的挑选，鱼龙混杂不是我想要的，希望找到关注和热爱AI的人。
欢迎你的加入！