字节推荐算法暑期实习一面面经


字节推荐算法暑期实习一面面经

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

最近刚面试完《字节推荐算法暑期实习一面面经》,现在需要对面试的问题进行重新复盘。
本来没想着走推荐的,他们把我捞起来了。
Q1:拷打论文项目
Q2:deepseek有哪些创新点
DeepSeek是一个多专家门控(MoE)模型,其创新点包括:
MoE架构:通过将注意力机制分解为多个专家来提高计算效率。
损失函数设计:引入了设备级平衡损失函数,用于优化模型性能。
多任务模型优化:结合了MoE和MLP等技术,提升了模型的泛化能力和效率。
Q3:deepseekmoe中的设备级平衡损失函数是什么?
DeepSeekMoE中的设备级平衡损失函数(Device-LevelBalanceLoss)用于确保不同设备之间的计算负载均衡,从而提高硬件利用率和整体训练效率。其公式如下:
其中:
是第个设备组内专家的选择频率;
是第个设备组内专家的激活概率;
是控制设备级平衡损失的超参数,通常设置为较大的值以促进设备间的负载均衡。
具体计算过程如下:
对于每个设备组,计算专家的选择频率,公式为:
其中是路由到第个专家的token比例,是第个设备组中专家的数量。
计算每个设备组内专家的激活概率,公式为:
其中是第个专家的平均激活概率。
将上述结果代入损失函数公式,得到设备级平衡损失。
设备级平衡损失的设计目的是在缓解计算瓶颈的同时,避免对专家负载的过度约束,从而不会损害模型性能。
Q4:手撕MHA
Multi-HeadAttention(MHA)是Transformer模型的核心组件之一。
MHA原理:MHA通过将输入数据投影到多个线性子空间中,分别计算注意力权重,然后拼接并线性变换输出。
代码实现:
Q5:一道非leetcode贪心算法题在面试官的友好引导下还是磕磕巴巴写了出来
Q6:机器学习中过拟合怎么处理,
过拟合是机器学习中常见的问题,可以通过以下方法解决:
增加训练数据量:扩大数据集以减少对训练数据的过度拟合。
正则化技术:如L1/L2正则化,通过惩罚权重项来约束模型复杂度。
Dropout:随机丢弃神经元以减少模型对特定特征的依赖。
早停法:在验证集上监控性能,当性能不再提升时停止训练。
模型简化:减少模型复杂度,如降低神经网络层数或节点数。
Q7:机器学习中特征选择怎么做。
特征选择是提高模型性能的重要步骤,常用方法包括:
过滤式方法:基于特征与目标变量的相关性进行选择,如卡方检验、互信息等。
包裹式方法:将特征选择视为一个子集搜索问题,通过评估不同特征组合的性能来选择最优特征。
嵌入式方法:在模型训练过程中自动进行特征选择,如随机森林中的特征重要性。
相关性分析:通过相关性矩阵或CFS算法去除冗余特征。
感觉前面大模型相关答的都挺好的,就是损失函数没背出来。两个简单的机器学习的问题倒不会,狠狠补课。
星球旨在分享AI算法岗&开发岗的秋招准备攻略、心得体会、内推机会等。涉及深度学习,机器学习,计算机视觉,自然语言处理,SLAM,大数据,数据分析,自动驾驶,C/C++,Java等方向。群主和嘉宾既有往届参加校招拿到Offer(含BAT/独角兽等大厂Offer),也有已经毕业工作的算法研究员/工程师和软开工程师。…
星球非免费。定价60元/年,0.136元/天。(每+100人,+20元。元老福利~)
一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;
二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱AI的人。
欢迎你的加入!


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录