学妹问:SFT时哪些参数比较重要?


学妹问:SFT时哪些参数比较重要?

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

本人是某双一流大学硕士生,也最近刚好准备参加2024年秋招,在找大模型算法岗实习中,遇到了很多有意思的面试,所以将这些面试题记录下来,并分享给那些和我一样在为一份满意的offer努力着的小伙伴们!!!
SFT时哪些参数比较重要?
LearningRate
学习率是影响模型收敛质量的关键因素。在进行全参数微调时,建议从较为保守的值(如2e-5)开始,并根据训练曲线的表现进行调整。如果模型收敛速度过慢,可适当提高学习率至3e-5或5e-5;若训练过程不稳定,则可降低学习率至1e-5左右。
对于LORA微调,通常可以采用相对较高的学习率,一般在1e-4到1e-3之间。
BatchSize
BatchSize需要在训练效率和显存占用之间进行权衡。需要注意的是,当BatchSize增大时,可能需要相应地提高学习率。
WarmupSteps
WarmupSteps在训练初期至关重要,可以有效避免因学习率过高而导致的模型剧烈震荡,对模型的最终收敛效果有显著帮助。通常建议将WarmupSteps设置为总步数的10%,例如总步数为4000步时,可设置400步作为WarmupSteps。
星球旨在分享AI算法岗&开发岗的秋招准备攻略、心得体会、内推机会等。涉及深度学习,机器学习,计算机视觉,自然语言处理,SLAM,大数据,数据分析,自动驾驶,C/C++,Java等方向。群主和嘉宾既有往届参加校招拿到Offer(含BAT/独角兽等大厂Offer),也有已经毕业工作的算法研究员/工程师和软开工程师。…
星球非免费。定价50元/年,0.136元/天。(每+100人,+20元。元老福利~)
一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;
二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱AI的人。
欢迎你的加入!
大模型算法工程师经典面试题————LLM大语言模型之Tokenization分词方法(WordPiece,BPE,BBPE)原理
大模型算法工程师经典面试题—:为什么在softmax之前要对attention进行scaled(为什么除以d_k的平方根)?”
大模型算法工程师经典面试题————为什么Bert的三个Embedding可以进行相加?
大模型算法工程师经典面试题————为什么现在的主流大模型都是decoder-only架构?
大模型算法工程师经典面试题————为什么现在的主流大模型都是decoder-only架构?
大模型算法面试题————为什么transformer是LayerNorm?
大模型算法面试题————大模型幻觉是什么,如何才能缓解这个问题?
模型算法工程师经典面试题————如何让LLM基于问题和context生成高质量的回答?
阿里面试官问:Self-Attention的时间复杂度/空间复杂度是怎么计算的?
阿里面试官:Transformers中的Softmax可以并行加速么?
学妹问:硕士校招生进入大模型领域工作,选预训练还是SFT?
面试官问:深度网络中loss除以10和学习率除以10等价吗
腾讯面试官问:RWKV、Mamba和Mamba-2的核心原理和创新之处是什么?
NLP经典面试题:RLHF训练过程是怎么样的?DPO如何解决RLHF存在问题?
LLMs经典面试题————为什么KVCache没有Q-Cache?
大模型面试帖——LoRA最硬核面经
NLP经典面试题————Transformer中前馈层(FFN)的作用是什么?
大模型经典面试题————如何解决大模型推理过程中的延迟问题?
现在LLM的大小为什都设计成6/7B、13B和130B几个档次?
在PyTorch框架中model.train()和model.eval()的作用是什么?
NLP经典面试题:RLHF训练过程是怎么样的?DPO如何解决RLHF存在问题?
为什么BERT使用多头注意力机制以及它与直接使用一个大矩阵进行统一计算的区别?
为什么NLP用Layernorm而不是batchnorm?
阿里面试官问:什么是softmax上下溢出问题?
BERT中的多头注意力机制-为什么需要多头?
阿里面试官问:为什么vllm能够加快大模型推理速度?
字节面试官:transformer里PE为什么不采用concatenation的方式?
大模型SFT不就好了,为什么还要RLHF?
面试官问:大模型领域,有哪些提高大规模模型的训练和推理效率库?
阿里面试官问:为什么Transformer的FFN需要升维再降维?
面试官问:如何在搜推广中利用LLM
面试官:大模型的量化为什么不会失之毫厘谬以千里?
Transformer面试常考题快问快答
面试官:解释下大模型微调中的灾难性遗忘问题
面试官:解释一下卷积神经网络(CNN)的基本结构
大模型算法岗面试准备篇(一)——如何进行自我介绍?
面试官:Adam和AdamW有什么区别?
TransformerEncoder/Decoder结构中的掩码Mask介绍?
面试官问:为什么深度学习需要tensor而不是numpyarray?
面试官问:如何克服神经网络训练中argmax的不可导性
小米二面:QLoRA和LORA有什么区别?
大模型算法岗面试准备篇(二)——如何想面试官介绍实习经验?
阿里面试官问:为什么vllm能够加快大模型推理速度?
BERT中的多头注意力机制-为什么需要多头?
阿里面试官问:什么是softmax上下溢出问题?
为什么NLP用Layernorm而不是batchnorm?
NLP经典面试题:RLHF训练过程是怎么样的?DPO如何解决RLHF存在问题?
在PyTorch框架中model.train()和model.eval()的作用是什么?
大模型经典面试题————如何解决大模型推理过程中的延迟问题?
NLP经典面试题————Transformer中前馈层(FFN)的作用是什么?
LLMs经典面试题————为什么KVCache没有Q-Cache?
面试官问:深度网络中loss除以10和学习率除以10等价吗
大模型面试题——大模型部署框架对比
学妹问:硕士校招生进入大模型领域工作,选预训练还是SFT?
阿里面试官:Transformers中的Softmax可以并行加速么?
阿里面试官问:Self-Attention的时间复杂度/空间复杂度是怎么计算的?
大模型算法工程师经典面试题————如何让LLM基于问题和context生成高质量的回答?
大模型算法面试题————大模型幻觉是什么,如何才能缓解这个问题?
大模型算法面试题————为什么transformer是LayerNorm?
大模型算法面试题—为什么现在的主流大模型都是decoder-only架构?
大模型算法工程师经典面试题————Attention为什么要除以根号d?”
大模型算法工程师经典面试题————KVCache原理是什么?
大模型算法工程师经典面试题————Transformers中的Softmax可以并行加速么?
大模型算法工程师经典面试题————Transformers中FFN的作用?
大模型算法工程师经典面试题————Transformers中的PositionEmbedding的作用?
大模型算法工程师经典面试题————如何根据模型参数量估计需要的显存?
大模型算法工程师经典面试题————为什么Bert的三个Embedding可以进行相加?
【面试题】华为-交叉熵(crossentropy),KL散度的值,到底有什么含义?
大模型面试:“分布式训练常用的通信后端都有什么?应该怎么选?”
大模型算法面试题—Prompttuning、PET、Prefixtuning、P-tuning的原理区别与代码解析一
大模型算法面试题—Prompttuning、PET、Prefixtuning、P-tuning的原理区别与代码解析二
大模型算法面试题————为什么LLM推理加速有KVCache而没有QCache?
大模型算法面试题————LoRA面试题汇总
大模型算法面试题————如何提升llama3训练数据质量?
【面试题】阿里-BeamSearch的缺点?
大模型算法面试题————大模型幻觉是什么,如何才能缓解这个问题?
【面试题解答】解释PPO,DPOandKTO?!
【面试题解答】问了Transformer内存优化!
【面试题解答】大模型预训练数据如何预处理?
【讨论】2024年,diffusion还有什么可做的?
【面试题解答】大模型中的响应延迟怎么解决?
如何确保检索到的数据是高质量的?[RAG相关]
RAG有哪些流程,流程里各有什么优化手段?[RAG相关]
PPT自动生成思路,有没有开源的好项目[AIPPT]
如何计算大模型推理服务的每秒请求数(QPS)?[大模型推理性能测试]
首Token延时(TTFT)与平均输入Token数量之间存在怎样的关系?[大模型推理性能测试]
首Token延时(TTFT)与平均输入Token数量之间存在怎样的关系?[大模型推理性能测试]
在实际聊天应用中,如何估算并发用户数(VU)?[大模型推理性能测试]
介绍一下ReAct?[agent]
解释一下AgentReflection模型?[agent]
如何针对比较长的文本表格进行检索?[RAG相关]
如何优化检索过程,以减少延迟和提高效率?【答案】
如何处理数据中的偏差和不一致性?【答案】
如何提高模型的泛化能力?【答案】
简答题:文章中提到了多种GPU间通信的方式,包括PCIe总线、NVLink和InfiniBand网卡。请简述这三种通信方式各自的特点以及它们通常被用于哪些场景。【答案】
填空题:在文章中,提到了Deepspeed使用的Zero优化技术可以进一步压缩训练时显存的大小,以支持更大规模的模型训练。Zero优化技术主要通过________、________和________来减少显存占用。
介绍一下DPO损失函数?
大模型DPO存在致命缺陷?
大模型训练,什么时候需要预训练?什么时候需要sft?什么时候需要dpo?
介绍一下Attention?
传统Attention存在哪些问题?
Attention优化方向有哪些?
介绍一下Multi-headAttention、Grouped-queryAttention、FlashAttention?
有哪一些谣言检测方法推荐?
大模型输出的时候带出相关文档这个功能吗?这个是后处理还是使用大模型自己总结出来的?
什么是scalingtest-time,分别有哪些方法实现?
什么是token-wise,什么是step-wise
请描述什么是RPM,什么是best-of-N/best-of-N-weighted/beamsearchRPM/LookAheadSearch
如何利用大模型做聚类吗?
如何利用大模型自动生成长篇报告?
embedding模型为何普遍都用encoder-only架构
为什么现在的LLM都是Decoderonly的架构
深度学习中,批量归一化有什么好处?
深度学习的batchsize必须是2的n次方吗?
advanced-RAG你知道有哪些?
self-rag有哪些insight,结合工作业务场景,设计知识库问答方案?
agent和faq结合尝试过没有这两个怎么结合啊?
Agent里的Memory是什么?
为什么需要DPO算法,DPO算法直觉与SFT算法区别,如何理论的分析?
如何评价RAG项目效果的好坏?
RAG使用外挂知识库主要为了解决什么问题?
详细说说Deepspeed的机制?
大模型的幻觉问题、复读机问题是什么?
为什么大模型中的响应延迟怎么解决?
大模型提速有哪些比较好的策略?
在PyTorch框架中model.train()和model.eval()的作用是什么?
大模型推理时,显存中有那几部分数据?
介绍一下Multi-headAttention?
为什么Transformer需要进行Multi-headAttention?
LSTM、CNN相对于Self-Attention存在什么问题?
介绍一下Self-Attention?
为什么Self-Attention中需要除以sqrt(dk)
一列数据在不知道具体有哪些类别的情况下,如何进行分类?
现在都有哪些小于1b的中文大模型?
有大模型长文本摘要生成任务,减少露召,冗余和幻觉的办法吗?或者项目推荐?
介绍下GLU激活函数和SwiGLU激活函数?
LLaMA1/2/3的异同?
介绍下LLaMa关键技术点?
ragflow和llamaindex区别?适应性?
Attention为什么使用MultiHead?
提示工程中的Zero-shot、One-shot、Multi-shot:它们到底是什么?
【面试题解答】为什么transformer的FFN需要先升维再降维?
【面试题解答】字节-“大模型的参数量为什么设计成7B,13B,33B,65B等如此怪异的数字?”
【面试题解答】model.eval()会像torch.no_grad()那样停止中间激活的保存么?
【面试题解答】大模型上线前为什么要做推理优化?
大模型训练如何评估数据集质量
【面试题】校招-“为什么Qwen设计成72B?
现在大模型为什么都用leftpadding?”
【面试题】深度学习中如何平衡多个Loss?
RWKV、Mamba和Mamba-2的核心原理和创新之处是什么?
介绍一下BeamSearch最坏时间复杂度是多少


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录