科研人神器，论文秒变海报！Paper2Poster：一键生成顶会级学术Poster，再也不用为赶会熬夜做PPT啦。

发布日期: 2025-07-01

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

由滑铁卢大学、新加坡国立大学、牛津大学提出的面向科学论文的多模式海报自动化生成方法Paper2Poster，主要解决了如何根据论文创建海报以及如何评估海报。
长语境长视野任务：科学论文篇幅浩大，字数众多。要总结关键见解并保持连贯性，需要层层理解和选择性抽象。论文的复杂性进一步要求论文具备长视野推理能力和多次迭代交互，这使得这项任务极具挑战性。
交错多模态输入：论文整合了大量的图形、表格和图表，每个都与周围的文本语义关联。成功的海报生成需要能够以符合语境的方式提取、解读和对齐这些多模态元素。
布局感知的多模态输出：与仅关注文本（例如博客）或视觉的任务不同，海报生成需要在受限的空间布局内生成交错的文本和图像输出。这需要对语言、视觉内容和布局进行联合推理，以防止溢出、不平衡和逻辑错位。
论文：https ://arxiv. org/abs/2505. 21497
代码：https ://github. com/Paper2Poster/Paper2Poster
项目：https ://paper2poster. github.io
试用：https ://huggingface. co/papers/2505. 21497
学术海报生成是科学交流中一项至关重要但又颇具挑战性的任务，需要将长上下文交错的文档压缩成单个视觉上连贯的页面。为了应对这一挑战，我们推出了第一个海报生成的基准和指标套件，该套件将近期会议论文与作者设计的海报配对，并评估以下方面的输出：(i)视觉质量——与人类海报的语义对齐，(ii)文本连贯性——语言流畅性，(iii)整体评估——由VLM作为评判员评分的六个细粒度的美学和信息标准，以及值得注意的是(iv)PaperQuiz——海报传达核心论文内容的能力，由VLM回答生成的测验来衡量。
在此基准的基础上，论文提出了PosterAgent，这是一个自上而下、视觉在环的多智能体管道：(a)Parser将论文提炼为结构化资产库；(b)Planner将文本-视觉对对齐成二叉树布局，以保持阅读顺序和空间平衡；（c）Painter-Commenter循环通过执行渲染代码并使用VLM反馈来优化每个面板，以消除溢出并确保对齐。在我们的综合评估中，我们发现GPT-4o的输出——尽管乍一看很有视觉吸引力——通常会出现文本噪声和较差的PaperQuiz分数，并且我们发现读者参与度是主要的审美瓶颈，因为人工设计的海报很大程度上依赖于视觉语义来传达意义。我们完全开源的Paper2Poster流水线在几乎所有指标上都优于基于GPT-4o的系统，同时消耗的token减少了87%。这些发现为下一代全自动海报生成模型指明了明确的方向。
方法概述。论文解决了科学海报生成中的两个核心挑战：
左图：如何根据论文创建海报——论文提出了PosterAgent，这是一个将长文本科学论文（超过2万个token）转换为结构化视觉海报的框架；
右图：如何评估海报质量——论文引入了Paper2Poster基准测试，该基准测试可以系统地比较代理生成的海报和作者设计的海报。
感谢你看到这里，也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、StableDiffusion、Sora等相关技术，欢迎一起交流学习💗～