编码器-解码器架构的复兴?谷歌一口气发布32个T5Gemma模型


编码器-解码器架构的复兴?谷歌一口气发布32个T5Gemma模型

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

机器之心报道
编辑:Panda
今天是xAI的大日子,伊隆・马斯克早早就宣布了会在今天发布Grok4大模型,AI社区的眼球也已经向其聚拢,就等着看他的直播(等了挺久)。当然,考虑到Grok这些天的「失控」表现,自然也有不少人是在等着看笑话。
尽管如此,谷歌似乎也并不在意被夺走的目光,接连对Gemma系列模型进行了更新。

该系列模型能够根据医疗图像和文本描述辅助诊断并提供医疗建议,整体表现也是相当不错。
HuggingFace:https ://huggingface. co/collections/google/medgemma-release-680aade845f90bec6a3f60c4
而本文的重点并不是它,而是谷歌今天发布的编码器-解码器架构的Gemma系列模型:T5Gemma。

当然,虽然仅解码器架构是目前LLM的主流,但实际上,编码器-解码器凭借高推理效率、设计灵活性以及更丰富的编码器表征,在某些实际任务中其实非常好用,比如摘要、翻译、问答等。
似乎正因为此,谷歌一直没有放弃编码器-解码器架构,T5Gemma便是其最新成果。
具体来说,T5Gemma使用了一种名为「适应(adaptation)」的技术来将已经完成预训练的仅解码器模型转换为编码器-解码器架构。
T5Gemma基于Gemma2框架,包含经过适应的Gemma22B和9B模型,以及一组全新训练的T5尺寸模型(Small、Base、Large和XL)。另外还包含预训练和指令微调模型的多种变体版本。此外,T5Gemma还提供了多种大小的编码器与解码器配置。不仅如此,谷歌还发布了使用PrefixLM或UL2这两个不同目标训练的模型。
总的算下来,谷歌这一次就发布了32个不同的T5Gemma模型。
HuggingFace:https ://huggingface. co/collections/google/t5gemma-686ba262fe290b881d21ec86
Kaggle:https ://www. kaggle.com/models/google/t5gemma
虽然热度远不及Grok4,但T5Gemma依然备受好评:
有人更是认为它是「LLM时代编码器-解码器模型的强势回归」。
不过也有人吐嘈模型太多,让人不知道怎么选。
从仅解码器到编码器-解码器
对于T5Gemma,谷歌研究的问题是:能否基于经过预训练的仅解码器模型构建顶级编码器-解码器模型?
谷歌为此探索了上述的适应技术,其核心思想是使用已预训练的仅解码器模型的权重来初始化编码器-解码器模型的参数,然后通过基于UL2或PrefixLM的预训练进一步调整这些参数。
方法概况,展示了如何使用经过预训练的仅解码器模型的参数初始化新的编码器-解码器模型。
这种适应方法高度灵活,并且支持组合不同大小的模型。例如,可以将大型编码器与小型解码器(例如,9B编码器与2B解码器)配对,创建一个「不平衡」模型。
如此一来,便可以针对具体任务权衡地选择质量与效率,比如在摘要任务中,对输入的深度理解比生成输出的复杂性更为重要。
实际上,谷歌已经在今年4月份发布了关于适应技术的论文
论文标题:Encoder-DecoderGemma:ImprovingtheQuality-EfficiencyTrade-OffviaAdaptation
论文地址:https ://arxiv. org/pdf/2504. 06225
T5Gemma的表现如何?
在谷歌的实验中,T5Gemma模型的性能与仅解码器的Gemma模型相当,甚至更胜一筹,在多个基准测试(例如用于衡量所学习到的表征质量的SuperGLUE)中,T5Gemma几乎主导了质量-推理效率的帕累托边界。
在给定的推理计算水平下,编码器-解码器模型始终能提供更佳性能,并且在一系列基准测试中引领质量-效率边界。
这种性能优势并非仅限于理论层面,它也能转化为实际的质量和速度。在测量在GSM8K(数学推理任务)上的实际延迟时,T5Gemma取得了显著优势。
例如,T5Gemma9B-9B的准确度高于Gemma29B,但延迟时间相似。更惊人是,T5Gemma9B-2B的准确度显著高于2B-2B模型,但其延迟时间几乎与规模小得多的Gemma22B模型相同。
总体而言,这些实验表明,编码器-解码器适应确实是一种灵活而强大的方法,可以更好地平衡质量和推理速度。
编码器-解码器模型能否获得与仅解码器模型类似的能力?
谷歌的答案是:可以!
T5Gemma在指令微调前后都表现优良。
经过预训练后,T5Gemma在需要推理的复杂任务上取得了亮眼的进步。
例如,T5Gemma9B-9B在GSM8K上的得分比Gemma29B模型高出9分以上,在DROP(阅读理解任务)上的得分比Gemma29B模型高出4分。这表明,通过适应初始化的编码器-解码器架构有潜力创建更强大、性能更佳的基础模型。
经过微调的T5Gemma模型在多个推理密集型基准测试上相比仅解码器的Gemma2取得了显著提升。
这些预训练带来的基础性改进奠定了基础,支撑起指令微调后更显著的提升。
例如,如果对比Gemma2IT与T5GemmaIT,可以看到性能差距全面显著扩大。T5Gemma2B-2BIT的MMLU得分比Gemma22B提高了近12分,其GSM8K得分也从58. 0%提升至70. 7%。看起来,经过适应后的架构不仅可能提供更好的起点,而且还能更有效地响应指令微调。最终构建出一个功能更强大、更实用的最终模型。
经过微调+RLHF后的模型的详细结果,表明后训练可以显著提升编码器-解码器架构的性能。
你认为T5Gemma能带来编码器-解码器模型的复兴吗?
参考链接
https ://developers. googleblog.com/en/t5gemma/
https ://x. com/googleaidevs/status/1942977474339496208
https ://research. google/blog/medgemma-our-most-capable-open-models-for-health-ai-development/
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin. com


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录