仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
来源:机器学习社区
部门与岗位:百度TPG-文心一言团队-大模型算法岗
自我介绍和项目介绍
介绍一下了解的大模型有哪些,这些模型在结构上有什么差异
说一下大模型常用的位置编码有哪些,各有什么优缺点
介绍一下大模型的预训练后训练以及推理是怎么做的,并且详细问了RLHF的做法,包括PPO算法的原理,以及DPO和PPO的区别
大模型的超长上下文是怎么做的,比如说KIMI
大模型智能体是怎么工作的,有哪些组件
场景题:如何训练一个大模型,可以做到精确的提取摘要
代码:股票的四个题
买卖股票的最佳时机
买卖股票的最佳时机II
买卖股票的最佳时机III
买卖股票的最佳时机IV
整体来说一面偏基础,问的问题也主要是一些大模型的八股问题,没有太多发散性的问题,难度不大。但是考察的还是挺全面的,整个面试一个半小时多
自我介绍
因为之前是做CV的,所以面试官问了CV和NLP的区别和联系,在Transformer的大背景下,CV、NLP,包括语音等,能否实现大一统
训练大模型的时候数据怎么清洗,怎么处理,怎么配比,怎样操作能更容易使模型达到更好的性能
什么是大模型的幻觉,如何减轻幻觉问题
大模型的复读问题是怎么产生的,业内一般有什么解决办法
大模型的工具调用怎么实现
Agent有哪几部分构成,了解哪些具体的实现方法
开放题:之前训练大模型的时候遇到过什么困难,你是怎么解决的
代码:实现一个Tokenizer,只能用PyTorch基础语法
二面相比于一面更加看重综合素质,喜欢考察分析问题解决问题的能力,对于一些细节知识点的考察并不多。二面也面试了一个多小时,面试官还是挺专业的。
首先过项目,但是问的特别细致,尤其是一个Agent的项目,从背景,到动机,再到做法,最后的结果,都问的非常细,大概有半个小时的时间
开放题:你觉得当前大模型还存在怎样的问题,有什么解决办法吗
开放题:让你自己设计一个Agent,会怎么做,为什么这样做
找工作比较在意的点是什么,除了薪资还有什么
对文心一言这个产品了解吗,有哪些优点和值得改进的点
如果给你发Offer,你到这个团队能做出什么贡献
三面整体来说更加综合,不止有一些技术问题,还有职业规划这些问题,更加考察整体的能力。面试官应该是这个团队的大老板,看问题更加系统和全面,整体面下来还是比较有压力的。
整体下来感觉面试官都是非常专业的,面试深度和广度都很可以,三场面试层层递进。面试官人也不错,如果比较满意的话也愿意多花时间来聊,而不是严格的卡一个小时这种完任务式的面试。
背景:本弱鸡211本硕,nlp,无论文有实习(老板没资源且放养),本科有acm经历(1铜),面试pcg日常实习。
Q1:了解什么机器学习算法,讲一下原理?
当时只记得实体识别用到了隐马尔可夫模型,讲了讲怎么怎么定义观测状态和隐藏状态、前向传播、解码和应用场景。
Q2:讲一下Bert的结构和怎么训练的,怎么用bert做下游任务?
八股,双向transformerencoder结构,预训练任务包括MLM和NSP,详细讲了讲。下游任务做过文本分类、关系提取等,用cls做预测;也可以做摘要生成等任务。
Q3:有没有了解过LLM,有自己调过吗,了解RLHF过程吗?
自己训练过llama3和glm(8、9B),跑过sft和dpo,有看过一些技术报告。当时用deepspeed跑的,然后讲了讲RLHF三个过程,最后PPO四个模型的作用。
Q4:有了解强化学习吗?能不能详细说说PPO是什么?
只通过RLHF了解过一点,好像跟面试官想要的答案不一致,跳过。
Q5:怎么扩展大模型的最大输入长度?
改变transformer结构(GQA,MQA,flashattention等),旋转位置编码RoPE等(只看过论文,自己用的很少,就想到啥说啥)
Q6:有了解过模型训练方法吗?
没用过(感觉要凉)
Q7:有了解过文生图吗?
有了解过一些项目,diffusion和clip原理,之前有自己跑过unet+diffusion+vae做文生图任务,讲了下为什么这么做。
Q8:手撕快排
当天晚上收到了参加二面的邮件,小激动。
二面没有手撕代码,问了问项目:
讲一下微调大模型是怎么做的,数据集怎么构建,数据怎么处理
看项目中用了RAG,讲一下设计流程
其中文本chunk怎么做的,为什么这么做
中间有没有遇到什么困难,怎么提高召回,如果文本输入大模型后效果不好怎么办
怎么提高大模型的外推性
有了解过文生图任务吗(怎么又问这个)
然后草草结束,一天后流程结束(挂了,继续努力)
部门与岗位:淘天集团-搜推智能产品事业部-多模态大模型
首先是自我介绍和过项目,面试官还一起探讨项目用到的方法,可行性之类的
介绍一下CLIP
了解LoRA吗,LoRA微调的原理是什么
了解哪些多模态大模型,简要介绍几个
BLIP的三个损失函数分别是什么,数据是怎样清洗的
BLIP2相对于BLIP有哪些改进,BLIP3又有哪些改进
Qwen-VL的三个训练流程分别是什么,有什么作用
视觉编码器和LLM连接时,使用BLIP2中Q-Former那种复杂的Adaptor好还是LLaVA中简单的MLP好,说说各自的优缺点
代码:实现多头自注意力
一面比较常规,几乎都是八股问题,我觉得只要了解常见的多模态大模型都问题不大,主要还是要理解各个模型设计的动机是什么,这也是面试最喜欢考察的
自我介绍和过项目,简要问了项目中使用某些方法的动机,以及是否会导致其他的问题
了解Transformer吗,编码器和解码器的注意力有什么区别,在计算注意力中时除以\sqrt{d_k}的原因是什么
后来有哪些比较经典的基于Transformer的语言模型,Qwen相比于原始Transformer有哪些结构上的改动,Qwen2又有哪些改进
了解RLHF吗,DPO和PPO有什么区别,Loss是什么样的,各自的优缺点是什么
介绍一下CLIP,还了解什么其他的对比学习方法
开放题:了解哪些多模态大模型,目前多模态大模型最大的问题是什么
代码:1143.最长公共子序列
二面其实也偏常规,几乎也都是八股问题,但是也考察了一些对模型的理解以及知识面的广度,整体来说比一面的难度大一些
自我介绍,然后详细过了一下项目
了解哪些大模型和多模态大模型,然后就聊了大模型这一路是怎么发展过来的,Transformer、BERT、GPT、LLaMA、Qwen这些,以及当时的o1推理模型
平常有尝试过训练过大模型吗,规模小一点的也没关系
聊天,包括职业规划等等
三面比较轻松,面试官说知识点前面两面都考察过了,三面就轻松一些,大概40来分钟吧
整体来说面试体验比较好,问的问题都不难,面试官也都不错,遇到一些卡壳的地方也会进行引导讨论,面试氛围很轻松。三面应该是加面的大老板面,从交流可以看出来对整个大模型这块的理解还是很深刻的,收获不小。
部门与岗位:百度TPG-文心一言团队-大模型算法岗
自我介绍和项目介绍
介绍一下了解的大模型有哪些,这些模型在结构上有什么差异
说一下大模型常用的位置编码有哪些,各有什么优缺点
介绍一下大模型的预训练后训练以及推理是怎么做的,并且详细问了RLHF的做法,包括PPO算法的原理,以及DPO和PPO的区别
大模型的超长上下文是怎么做的,比如说KIMI
大模型智能体是怎么工作的,有哪些组件
场景题:如何训练一个大模型,可以做到精确的提取摘要
代码:股票的四个题
买卖股票的最佳时机
买卖股票的最佳时机II
买卖股票的最佳时机III
买卖股票的最佳时机IV
整体来说一面偏基础,问的问题也主要是一些大模型的八股问题,没有太多发散性的问题,难度不大。但是考察的还是挺全面的,整个面试一个半小时多
自我介绍
因为之前是做CV的,所以面试官问了CV和NLP的区别和联系,在Transformer的大背景下,CV、NLP,包括语音等,能否实现大一统
训练大模型的时候数据怎么清洗,怎么处理,怎么配比,怎样操作能更容易使模型达到更好的性能
什么是大模型的幻觉,如何减轻幻觉问题
大模型的复读问题是怎么产生的,业内一般有什么解决办法
大模型的工具调用怎么实现
Agent有哪几部分构成,了解哪些具体的实现方法
开放题:之前训练大模型的时候遇到过什么困难,你是怎么解决的
代码:实现一个Tokenizer,只能用PyTorch基础语法
二面相比于一面更加看重综合素质,喜欢考察分析问题解决问题的能力,对于一些细节知识点的考察并不多。二面也面试了一个多小时,面试官还是挺专业的。
首先过项目,但是问的特别细致,尤其是一个Agent的项目,从背景,到动机,再到做法,最后的结果,都问的非常细,大概有半个小时的时间
开放题:你觉得当前大模型还存在怎样的问题,有什么解决办法吗
开放题:让你自己设计一个Agent,会怎么做,为什么这样做
找工作比较在意的点是什么,除了薪资还有什么
对文心一言这个产品了解吗,有哪些优点和值得改进的点
如果给你发Offer,你到这个团队能做出什么贡献
三面整体来说更加综合,不止有一些技术问题,还有职业规划这些问题,更加考察整体的能力。面试官应该是这个团队的大老板,看问题更加系统和全面,整体面下来还是比较有压力的。
整体下来感觉面试官都是非常专业的,面试深度和广度都很可以,三场面试层层递进。面试官人也不错,如果比较满意的话也愿意多花时间来聊,而不是严格的卡一个小时这种完任务式的面试。
最后推荐一个我正在学习的AIAgent智能体实战课