大模型微调实战，教程+代码

发布日期: 2025-07-03

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

大家好，我是Ai学习的老章
本文一起学习一下如何使用unsloth对大模型进行微调
对大语言模型（LLM）进行微调可以定制其行为，增强领域知识，并针对特定任务优化其性能。通过在数据集上对预训练模型进行微调，你可以：
更新知识：引入新的特定领域信息。
定制行为：调整模型的语气、个性或回复风格。
针对任务优化：提高特定用例的准确性和相关性。比如：
训练大语言模型以预测标题对公司的影响是正面还是负面。
利用历史客户交互信息获得更准确和定制化的回复。
在法律文本上对大语言模型进行微调，以用于合同分析、判例法研究和合规性检查。
将微调后的模型视为专门设计的智能体，它能更有效地完成特定任务。
微调可以复制检索增强生成（RAG）的所有能力，但反之则不行。
除了本文介绍的Unsloth，还有很多微调框架可以选择，比如LLaMA-Factory、DeepSpeed、PEFT、TRL、Axolotl等
它们各有特点（整理By：Grok）：
框架
训练速度
显存优化
易用性
模型支持
分布式支持
功能丰富度
适合场景
Unsloth
★★★★★
★★★★★
★★★★★
★★★★
★★
★★★
单机、低资源、快速微调
LLaMA-Factory
★★★
★★★
★★★★
★★★★★
★★★★
★★★★★
多模型、复杂任务、WebUI
DeepSpeed
★★★★
★★★★
★★
★★★★
★★★★★
★★★★
大规模分布式、超大模型
PEFT
★★★
★★★★
★★★
★★★★
★★
★★★
高效微调、研究实验
TRL
★★★
★★★
★★★
★★★★
★★★
★★★★
RLHF、对齐任务
Axolotl
★★★
★★★
★★★
★★★★
★★★★
★★★★★
复杂配置、批量实验
选择上：
Unsloth：适合资源有限、追求快速微调的场景
LLaMA-Factory：需要WebUI、多模型支持或复杂训练策略（如PPO、ORPO）时。
DeepSpeed：处理超大模型或多节点分布式训练时。
PEFT：需要高度自定义高效微调方法（如自定义Adapter）时。
TRL：专注于RLHF或DPO等对齐任务时。
Axolotl：需要批量实验或复杂YAML配置时。
本文我们选择Unsloth：
效率：通过手写Triton内核和优化算法，微调速度提升2-5倍（单GPU），最高32倍（多GPU）。内存占用降低70%-80%，支持在低显存设备（如8GBGPU）微调大模型。
精度：无精度损失，优于传统量化方法（如bitsandbytes）。
长上下文支持：支持超长上下文（如Llama-3扩展到32K+tokens），并通过梯度检查点优化显存。
易用性：与HuggingFace生态高度集成，代码简洁，支持SFT和DPO，提供Colab/Kaggle笔记本，适合初学者。
模型支持：支持Llama-3、Mistral、Gemma、Phi-3、Qwen等主流模型。
开源免费：完全开源，社区活跃，文档完善。
部署：支持GGUF导出和Ollama本地推理，适合轻量部署。
说起Unsloth，最广为人知的是它在大模型量化上的成就
DeepSeek-R1爆火的时候，unsloth就发布过最小1. 58位量化版本的R1，把DeepSeek-R1这个非常大的模型（它有6710亿个参数，也就是671B）通过“量化”把原本720GB的模型压缩到只有131GB的大小。
Huggingface上unsloth一共开源了764个不同模型，不同参数量，不同量化方式的模型文件
大家可以从官方更方便地选择模型，跳转到Huggingface
以DeepSeek-R1-0528为例
DeepSeek-R1-0528是DeepSeek对其R1推理模型的最新升级版本。R1-0528是目前全球最强大的开源模型，性能可媲美OpenAI的GPT-4. 5、o3以及谷歌的Gemini2. 5Pro。
从1. 66到5.5bit，Unsloth一共制作了9个量化版本，最小的1. 66bit版，gguf文件大小仅162GB，比8bit版减小了近80%
更离谱的是Unsloth的1. 93bit量化DeepSeek-R1-0528，相比8bit原始版，文件大小降低了70%以上。它在aider上则是取得了71. 4分，超过了不开启思考的Claude4Opus。
安装首选平台是Linux
Windows安装需要一系列的依赖[ 1]

2、安装VisualStudioC++https ://visualstudio. microsoft.com/vs/community/
3、安装CUDAToolkithttps ://developer. nvidia.com/cuda-toolkit-archive
4、安装PyTorchhttps ://pytorch. org/get-started/locally/
5、安装unslothpipinstall\“unsloth[ windows]@git+https ://github. com/unslothai/unsloth. git\“
个人建议Windows的话，用WSL[ 2]
适用于Linux的Windows子系统（_WSL_）是Windows的一项功能，可用于在Windows计算机上运行Linux环境，而无需单独的虚拟机或双重启动。
这也是为何选择Unsloth快速微调的原因，它提供了一系列不同模型，不同优化策略的jupyternotebook模版[ 3]
可以直接下载后运行，也可以直接在Googlecolab上运行
唯一需要你花功夫的只有准备好训练数据，然后点击全部运行
比如Qwen3-14B推理+对话的微调
详细步骤、参数设置、优化策略选择也有详细解读[ 4]
unsloth也提供了数据集构建的方法[ 5]，包括数据格式、数据格式化、合成数据生成等等，事无巨细。
参考资料