你好研究僧,听说刚刚中了顶会,却还在愁怎么做Poster(学术海报)?
别急,容在下为你推荐一款新时代科研党神器——PosterAgent,帮你一键从paper.pdf跳转poster.pptx。
相比GPT-4o,PosterAgent生成指标更优,同时token使用量减少87%,还只需要0.0045美元,就可将22页的论文转化为可编辑的 “.pptx” 终稿海报。
来自滑铁卢大学的联合研究团队,还精心构建了首个学术海报评估标准Paper2Poster,解决了长上下文、多模态压缩的评估空白。
话不多说,先给大家展示一波效果,以下面这篇CV论文为例。
先喂给GPT-4o-image,得到的是这样的:
显然学术海报三要素(吸睛标题、重点突出、色彩排版),GPT-4o-image通通都没有。
不妨交给PosterAgent试试:
视觉更连贯、信息还高效,难怪连已经毕业了的师兄师姐们都在X上哭诉,凭什么我们当年没有它。
这下妈妈再也不用担心我做不好Poster,被老板在群里夺命call了(狗头)。
下面来讲讲它为啥这么好用。
Poster在学术会议里的重要性不言而喻,需要让与会者在几分钟内就迅速从中掌握核心内容,这就很考验制作者的论文浓缩能力,以及文本和图形的排版功底。
为了帮大家解放双手,以及更一目了然地评估海报效果,研究团队提出了评估基准Paper2Poster以及基于此构建的多智能体框架PosterAgent。
Paper2Poster的数据包含100对AI领域论文和作者设计的海报,涵盖计算机视觉(19%)、自然语言处理(17%)和强化学习(10%)等子领域的280个不同主题,论文平均22页,生成海报的文本压缩比约为14.4倍,图形减少比约为2.6倍。
评估指标覆盖四个基本维度:
根据Paper2Poster的要求,团队设计了一个采用自上而下设计理念的多智能体流程PosterAgent。
首先全局地将整个文档重组为简洁、连贯的章节,然后进行局部精炼,以实现颗粒度对齐。
具体包含三个关键组件:
眼见为实,为验证PosterAgent生成效果,研究人员用Paper2Poster评估了四类基线方法:
实验结果表明,在视觉质量和文本连贯性上,虽然4o-Image达到了最高的视觉相似度,但它也记录了最差的困惑度,说明生成的海报可能乍一看吸引人,但实际细看全是嘈杂或不连贯的文本。
PosterAgent则实现了最高的图形相关性,在视觉相似度上也紧随人类设计的海报。
当VLM评判时,PosterAgent-4o的平均得分为3.72,达到了与人类设计海报相当的水平,而PPTAgent因为经常生成无意义的文本或大片空白区域,因此得分都较低。
在PaperQuiz上,也能发现PosterAgent变体始终取得最佳分数。
值得注意的是,PosterAgent-4o虽然依据GPT-4o实现了冗长输出,但基于开源的Qwen-2.5系统变体在原始准确率上更胜一筹,说明PaperQuiz在评估时,内容量很重要,但呈现质量更重要。
团队还计算了不同方法下的平均token成本,PosterAgent仅使用101.1K和47.6Ktoken,相较于OWL-4o成本降低了60%-87%,相当于每张海报只需要0.55美元 (基于4o)或0.0045美元 (基于Qwen)。
最后为了方便大家更直观地了解几种方法的海报生成效果,咱再举个例子。
这是论文作者自己做的,主题明确,重点突出,色彩搭配也和谐。
这张来自GPT-4o-image,看起来好像还行?但是仔细看文字,里面还是有不少乱码。
这张由GPT-4o-html生成,图片嵌入失败,文本也缺少排版。
这张出自PPTAgent,生成了大量空白区域。
下面这张来自OWL,同样缺少图像,甚至没有多余色彩填充。
最后是咱们的PostAgent,对比下来,海报结构清晰明了,图表与文字匹配度也相当高,在视觉效果上更接近作者设计的海报。
扩展一下思路,也许PosterAgent还可以用于制作课程学习资料。
公司里的PPT也未尝不能一试。
所以感兴趣的小伙伴们速速收藏起来这个海报神器~接下来的CVPR、ACL刚好都可以用上。
论文链接:https://arxiv.org/abs/2505.21497
代码链接:https://github.com/Paper2Poster/Paper2Poster
项目链接:https://paper2poster.github.io/
参考链接:
[1]https://x.com/real_weipang/status/1927797168171254006
[2]https://x.com/_akhaliq/status/1927721150584390129
文章来自于“量子位”,作者“鹭羽”。