霸榜ICLR25!大模型高效推理成顶会新风向!88种创新思路,速码!
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
今天给大家推荐一个热门且好发高区的方向:大模型高效推理!
一方面,DeepSeekR1等的强力表现,使LongCoT等推理技术爆火。但也伴随着模型“过度思考”的问题,堆高了计算成本,限制了其在各种实时场景中的应用和落地。因而,对其的研究成为了迫切需求。各大顶会也都不乏其身影。比如ICLR25的DuoAttention,便是由MIT韩松团队提出。通过区分检索头和流式头,使推理内存减少2.55倍,解码速度提升2.18倍,而处理文本长度增加了6.4倍!
另一方面,作为新兴方向,该领域还处在快速发展期,还存在大量的研究空白,比较容易出高质量的创新点。
为让大家能够紧跟领域,找到更多idea启发,我给大家准备了88种创新思路和源码,主要涉及模型优化、输出精简、提示优化等主流方向!
扫描下方二维码,回复「高效推理」
免费获取全部论文合集及项目代码
该论文提出了一种名为CoCoMix的新型语言模型预训练框架,旨在通过结合离散的下一个词元预测和连续的概念来提高模型的样本效率和推理能力。CoCoMix利用稀疏自编码器(SAE)从预训练模型的隐藏状态中提取“连续概念”,并将其与词元隐藏表示交错混合到模型的隐藏状态中。
该论文提出了一种名为MCoT的新框架,用于提高大型语言模型(LLMs)在数学推理任务中的效率和准确性。MCoT通过将多步推理过程建模为马尔可夫链,将每个推理步骤视为从一个状态到另一个状态的转换,从而实现高效的推理,展示了在复杂问题解决和自我纠正方面的能力,为未来在更广泛的复杂推理任务中的应用提供了新的方向。
扫描下方二维码,回复「高效推理」
免费获取全部论文合集及项目代码
该论文提出了一种名为Self-REF的轻量级微调策略,旨在帮助大型语言模型(LLMs)更可靠地表达其对预测结果的置信度。Self-REF通过引入置信度标记,使模型能够根据预测的正确性生成相应的置信度标记,从而提取出置信度分数,在路由任务中能够根据置信度将查询有效地路由到更强大的LLMs。
该论文提出了S2R,这是一个高效的框架,通过强化学习教授大型语言模型(LLMs)在推理过程中进行自我验证和自我纠正。S2R通过监督微调(SFT)初始化模型的自我验证和自我纠正行为,并利用结果级和过程级强化学习进一步增强这些能力。
扫描下方二维码,回复「高效推理」
免费获取全部论文合集及项目代码