仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
大家好,我是Ai学习的老章
本文一起学习一下大模型中经常看到的一个参数——Temperature
Temperature:用于调整随机从生成模型中抽样的程度,因此每次“生成”时,相同的提示可能会产生不同的输出。温度为0将始终产生相同的输出。温度越高随机性越大!主要用于控制创造力。
大模型中的temperature参数用于控制模型输出的随机性和创造性。
较高的temperature值会增加输出的随机性,产生更多样化的结果,但也可能降低预测准确性。
较低的temperature值则会使输出更确定、更保守,更倾向于产生重复和更可预测的输出。
设置temperature时需要在随机性和准确性之间找到平衡。在测试大模型时,可以通过改变temperature的值来评估模型在不同情境下的表现,比如在创意生成、代码编写等任务中,观察其生成结果的变化。
除了Temperature这个最常被讨论的参数,我们还会经常看到以下参数:
top_p:限制被考虑的标记范围。若设为0. 5,则仅考虑累计概率不超过50%的最高概率标记。
top_k:同样限制被考虑的标记,仅考虑概率最高的前k个标记。
frequency_penalty:根据生成文本中新词出现的频率对其进行惩罚。可设置为负值以鼓励重复。
presence_penalty:若新词已出现在已生成文本中,则对其进行惩罚。可设置为负值以鼓励重复。
repetition_penalty:该参数被记录为根据新词是否已在生成文本或提示中出现过而进行惩罚的参数。
开源权重与开源数据集的模型[ 1]
模型名称
temperature
top_p
top_k
备注
0. 3
无
无
官方推荐0. 3,但部分基准测试使用0. 7。
0. 6
0. 95
无
模型卡和论文均推荐此配置。
无(报告用0. 5)
无
无
官方无推荐,但技术报告多用temperature=0. 5。
0. 8
0. 95
50
模型卡明确指定所有参数。
0. 15
无
无
API返回的旧版默认值与模型卡不符。
不明确(示例用0. 15)
无
无
示例代码用0. 15,但API默认值为0. 0。
0. 7
0. 95
无
模型卡明确推荐,与API默认值一致。
0. 6非思考:0. 7
0. 95非思考:0. 8
20
官方为不同模式提供明确参数建议。
0. 6
0. 95
40
模型卡明确指定所有参数。
模型名称
temperature
top_p
top_k
备注
1. 0
0. 96
64
参数来自非官方确认,但已写入配置文件。
0. 6
0. 9
无
参数来自配置文件,模型卡未提及。
关键结论与建议
Temperature是平衡随机性与确定性的核心参数,无统一最优值,需根据任务特性动态调整。
低T值适合追求准确性的任务,高T值适合追求创造性的任务,但需通过提示词或后处理(如核采样、Top-K采样)辅助控制输出质量。
实际应用中建议进行小范围调优实验(如T=0. 7、1. 0、1. 3对比),结合人工评估与客观指标确定最佳值。
研究方法:
模型与提示:使用了9个流行的LLM模型,并结合5种提示工程技术,包括基线提示、领域专家提示、自我复述提示、思维链(CoT)提示和复合提示。
数据:从标准的LLM基准测试中随机抽样,创建了包含不同领域和难度的多项选择题(MCQA)考试,包括大型考试(1000题)和小型考试(100题)。
实验过程:在不同的采样温度(0. 0到1.6)下,让模型使用不同的提示技术解决这些MCQA问题,并记录正确答案的准确率。同时,还使用了多种文本相似性指标来分析模型输出的可变性。
研究结果:
准确率与温度的关系:在0. 0到1.0的温度范围内,LLM的问题解决性能相对稳定,没有显著的统计学差异。当温度超过1. 0时,生成的文本会迅速变得不连贯,准确率开始下降,在1. 6左右降至零。
文本可变性与温度的关系:随着温度的升高,文本相似性降低,即文本可变性增加。这种趋势在温度超过1. 0时更为明显,与准确率的下降趋势一致。
研究结论:
实际应用建议:对于问题解决任务,建议将LLM的采样温度设置为0. 0,以最大化结果的可重复性,同时不影响准确性,并避免温度超过1. 0时性能下降。
研究局限性:研究仅涉及部分LLM模型、提示技术和问题领域,样本量有限,且未考虑其他采样参数的组合效应。
未来研究方向:建议进一步研究更多LLM模型、扩展问题类型、增加问题数量和领域,以及深入分析温度对不同类型问题的影响。
IsTemperaturetheCreativityParameterofLargeLanguageModels?[3],这篇论文发现:
创造力是复杂的,不仅需要新颖性,还需要有用性、连贯性等。比如,一个故事若只是随机堆砌词语(高温度),可能毫无逻辑,算不上真正的“创意”。
固定实验条件:使用LLAMA2-CHAT模型,用同一个简单prompt(“Writeastory.”)生成故事,仅改变温度参数(范围0. 001到2.0)。
评估维度:从4个维度判断故事的创造力:
新颖性(是否独特)、典型性(是否符合故事常见模式)、内聚性(句子和情节是否连贯)、连贯性(读者是否容易理解)。
核心发现:温度的影响比想象中弱
温度与新颖性:有微弱的正相关,即温度越高,故事偶尔会更独特,但效果不明显。
温度与连贯性:呈负相关,温度越高,故事越可能逻辑混乱(比如情节跳跃、难以理解)。
温度与典型性、内聚性:几乎没有关系。比如,高温度并不能让故事更符合某种类型(如冒险故事),也不能让句子衔接更自然。
关键结论:温度只能带来有限的“多样性”,但远不能代表“创造力”。它更像是“碰运气”——温度高可能偶然出现新颖内容,但也可能产生垃圾输出。
创造力需要平衡“新颖”和“有用”,而温度仅控制随机性,无法保证内容质量。
比如,一个好的创意故事需要合理的情节、鲜明的角色,这些不是靠调高温度就能自动生成的,可能需要更复杂的模型设计或提示工程。温度参数对LLM的“创意输出”有一定影响,但远非决定性因素。真正的AI创造力需要更复杂的机制,而不是简单调参。未来研究应聚焦于如何让模型在“随机”和“可控”之间找到平衡,从而生成真正有价值的创意内容。
这篇论文:ExploringtheImpactofTemperatureonLargeLanguageModels:HotorCold?[4],系统研究了大语言模型中temperature参数(0-4. 0范围)对六种核心能力(因果推理、创造力、上下文学习、指令遵循、机器翻译、摘要生成)的影响,发现其对不同能力和模型规模(小1B-4B、中6B-13B、大40B-80B)的影响差异显著:小模型对温度更敏感,高温易导致性能骤降;大模型在高温下更稳健。例如,机器翻译在小模型中性能波动可达192. 32%,而大模型仅76. 86%。研究提出基于BERT的温度选择器,在SuperGLUE数据集上显著提升中小模型性能,并验证了FP16与4-bit量化下温度效应的一致性。
核心结果:
创造力(CT):中/大模型在T=1. 3时表现最优,小模型在T=1. 0时显著下降(见表3)。
机器翻译(MT):温度与性能呈强负相关,小模型性能波动达**192. 32%,大模型仅76. 86%**(见表3)。
指令遵循(IF):T>1时性能骤降,小/中/大模型的突变温度分别为1. 0-1. 3、1. 3-1. 6、1. 6-1. 9(图2)。-温度对LLMs的影响需结合任务类型(如CT需中高温,MT需低温)和模型规模(小模型更敏感)动态调整,中小模型可通过BERT选择器优化性能,大模型则可依赖其内在稳健性。
搭建完美的写作环境:工具篇(12章)图解机器学习-中文版(72张PNG)ChatGPT、大模型系列研究报告(50个PDF)108页PDF小册子:搭建机器学习开发环境及Python基础116页PDF小册子:机器学习中的概率论、统计学、线性代数史上最全!371张速查表,涵盖AI、ChatGPT、Python、R、深度学习、机器学习等
参考资料
开源权重与开源数据集的模型:https ://muxup. com/2025q2/recommended-llm-parameter-quick-reference
IsTemperaturetheCreativityParameterofLargeLanguageModels?:https ://arxiv. org/pdf/2405. 00492