Paper2Video:从论文自动生成学术展示视频

论文Paper2Video: Automatic Video Generation from Scientific Papers提出了一个面向学术场景的“从论文自动生成学术展示视频”方案:基准数据集 Paper2Video(101 篇论文与作者录制的展示视频/幻灯片/说话人元数据配对),以及多智能体生成系统 PaperTalker。作者同时设计了四类面向“学术传播有效性”的评测指标(Meta Similarity、PresentArena、PresentQuiz、IP Memory),并在基准上验证 PaperTalker 的有效性,显示其在信息传达与可用性上逼近甚至在部分维度超越人工制作的视频。

论文作者为Zeyu Zhu, Kevin Qinghong Lin, Mike Zheng Shou,来自National University of Singapore。

Paper2Video: Automatic Video Generation from Scientific Papers

一、任务定义与核心挑战
任务输入为:论文全文(长上下文、含大量图表公式)、说话人肖像与音色样本;输出为:可用于学术投稿/会议的完整展示视频(含学术风格幻灯片、逐句字幕与语音、说话人头讲解画面、光标指引)。挑战主要体现在:
1)多模态长上下文理解:论文通常 20–30+ 页、几十幅图表,信息密度高。
2)多通道协同生成与对齐:需要同时协调幻灯片、字幕与语音、说话人视频、光标的时空一致性。
3)个性化说话人合成:在保证身份外观与音色保真的同时实现稳定、长时的唇动与表情。
4)时空落点(grounding):光标需要与语音/字幕语义同步,并准确落在当前要点区域上。

二、Paper2Video 基准与数据统计
数据来源于近三年顶会(NeurIPS/ICLR/ICML、CVPR/ICCV/ECCV、ACL/EMNLP/NAACL 等)作者录制的展示视频,并尽可能配齐原始 PDF 幻灯片、说话人肖像与音频样本。合计 101 个样本,其中约 40% 还包含作者幻灯片 PDF 以便“参考式”评测。统计显示:平均每个展示约 16 页幻灯片、时长约 6 分 15 秒;论文平均 28.7 页、含 44.7 幅图、13.3k 词(3.3k tokens)左右,覆盖主题广泛。该基准强调对长程、代理式(agentic)任务的评测价值,而非仅仅生成几秒自然视频。

三、评测体系(四个维度)
1)Meta Similarity(“像不像作者版本”):以人类视频为“伪 GT”,比较生成的“幻灯片+字幕”与作者版本的一致性(VLM 打分),语音相似度用说话人嵌入的余弦相似度衡量。
2)PresentArena(“哪个更好”):以 VideoLLM 作为代理观众,双顺序成对比较(A,B 与 B,A)以削弱位置偏置,统计胜率。
3)PresentQuiz(“传达了多少论文信息”):由论文自动构造选择题(含细节与高层理解),让 VideoLLM 仅基于生成视频作答,准确率越高表示覆盖越好。
4)IP Memory(“是否提升作者与工作的记忆度/可见度”):模拟会后遇到作者时能否联想到相关问题的能力,构造说话人图片与短视频片段+问题配对,让模型从 4 个候选中匹配出正确问题,准确率为指标。

四、方法:PaperTalker 多智能体流水线
整体由四个“Builder”并行协作,面向学术实用性而非端到端扩散生成:
1)Slide Builder(学术风格幻灯片生成与版式细化)
• 直接从论文 LaTeX 工程生成 Beamer 代码(非模板反复编辑),编译-诊断-修复闭环,确保语法与结构正确。
• 提出“树搜索式视觉选择(Tree Search Visual Choice)”优化版式:对易溢出的页,规则化地枚举字体/图缩放等参数→渲染候选→用 VLM 评判选择最佳分支,从而稳定解决 overfull、裁切等问题,比让 LLM“盲调数值”更可靠高效。
2)Subtitle Builder(逐句脚本与视觉关注提示)
• 将每页幻灯片栅格化送入 VLM,生成逐句字幕 Ti 及对应的视觉关注提示 P(描述本句应指向的图/框/项目符号等)。
3)Cursor Builder(光标的时-空绑定)
• 空间对齐:基于“计算机使用/GUI 代理模型”(如 UI-TARS)把视觉提示 P grounding 为屏幕坐标 (x,y)。
• 时间对齐:用 WhisperX 获得逐词时间戳,与句级字幕对齐得到 (ts, te)。
4)Talker Builder(个性化声音与说话人视频)
• 语音:以作者短音色样本驱动 TTS(F5-TTS),逐页合成自然语音。
• 说话人视频:使用 Hallo2(仅头部)或 FantasyTalking(上半身动作),关键是“按页并行合成”,各页独立、天然切场,整体速度 >6×。

五、实验设置与对比方法
对比三类基线:
• 端到端自然视频扩散(如 Wan2.2、Veo3):从文本提示直接生成短视频;
• 多智能体拼接(PresentAgent + PPTAgent):生成 PPT 再配 TTS 旁白,但无个性化说话人,且学术开场/大纲页等风格不足;
• PaperTalker 及其变体(去除 Talker / 去除 Cursor 等)。评测用 GPT-4.1(VLM)与 Gemini-2.5-Flash(VideoLLM),8× RTX A6000 推理。

六、主要结果
1)Meta Similarity:PaperTalker 在“语音相似度”与“内容相似度”均最高,表明“个性化 TTS + Beamer 生成 + 树搜索版式细化”的组合更贴近人类作品。
2)PresentArena:与作者视频成对比,PaperTalker 的胜率在各法中最高;进一步对比显示,加入 Talker 与 Cursor 分别带来感知质量提升(无 Talker/Cursor 的变体胜率低 1.8%)。
3)PresentQuiz:在“细节问答”与“高层理解”两类题型上,PaperTalker 的准确率优于人类版本与 PresentAgent,且用更短时长传递了更多有效信息。光标对 VideoLLM 的“定位-理解”尤为有益。
4)IP Memory:PaperTalker 最高,说明“带有作者外观与音色的 Talker”显著增强观众对工作的记忆锚点。
5)人类主观评测:人类作品得分最高,PaperTalker 次之,显著优于端到端自然视频与 PresentAgent,接近可直接使用的质量门槛。

七、消融研究与可解释性观察
1)Cursor 的作用:设计定位式 QA 任务,比较“有/无光标”条件下 VLM 的定位答题准确率;带光标时准确率显著提升(无光标 0.084 → 有光标 0.633),验证光标对“注意力引导与语义落点”的关键作用。
2)树搜索式视觉选择:去除该模块显著降低“设计质量”评分(1–5 量表),尤其在解决 overfull、裁切与拥挤布局上,该模块起到决定性作用。

八、效率与工程权衡
PaperTalker 的代价主要在:一次性生成 Beamer + 轻量树搜索细化 + 并行说话人生成。与“交互式编辑模板”的方法相比,Beamer 代码更紧凑、Token 成本更低;分页并行将视频生成总时长降到非并行的 ~1/6。对比 PresentAgent,PaperTalker 在 Token 与总时间/成本上更具可控性与可复用性。

九、与相关工作的系统性比较
• 自然视频扩散(Veo3、Wan2.2 等)擅长短时、审美/运动连贯性,但对“长文档条件、清晰可读文本、多图跨页引用”无能为力,且多为“视频+音乐/旁白”的松耦合。
• PPT/海报自动化(PPTAgent、Paper2Poster):能做“静态材料”,但难以端到端联动说话人、光标与字幕/语音,更缺乏学术风格细节(开场、纲要、致谢等)。
• PaperTalker 将“学术传播的四要素”——幻灯片、字幕/语音、说话人、光标——在代理框架下强约束一致性,并以“评测体系”闭环验证“传递学术要点”的能力。

十、论文的关键创新点
1)任务与基准:首次系统定义“论文→学术展示视频”的任务,并给出成对数据与评测闭环。
2)评测维度:从“像不像作者版本”“观众偏好”“信息传达”“记忆可见度”四个维度刻画“学术传播质量”。
3)树搜索式视觉选择:把“版式微调”从“语义编辑”解耦为“视觉候选枚举+VLM 选择”,稳定、可扩展。
4)光标时空对齐:以 GUI 代理模型 + WhisperX 将每句落点锚定在关键要素上,降低观众的外在认知负荷。
5)分页并行的个性化说话人:贴合真实录制流程,显著提高生成速度与实用性门槛。

十一、局限性与潜在改进
1)对基础模型的依赖:VLM/VideoLLM 的判断与评分可能带来“模型—评测同源偏差”。未来可增加人工标注、跨模型交叉评测与失配鲁棒性分析。
2)领域泛化:数据以 AI 顶会为主,跨学科(医学、化学、社会科学)版式与叙事风格可能需专门适配(图式、配色、符号规范)。
3)伦理与授权:说话人肖像与音色克隆需明确授权与水印;建议默认启用“身份使用声明”“AI 生成标识”。
4)多语种与可达性:当前脚本为英文;未来应覆盖多语言 TTS 与字幕、无障碍规范(色盲调色、听障支持)。
5)更长时视频的跨页连贯:分页并行会牺牲跨页的手势/姿态连续性,可考虑轻量级跨页一致性约束或“软转场 Talker”。

十二、应用前景与扩展设想
• 学术生产力:投稿前自动生成 2–10 分钟视频;课程/组会可快速生成讲解版本;综述/教程型内容可半自动批量化。
• 产业/研究传播:将技术白皮书、专利、企业研究报告自动转化为讲解视频;对大量技术档案实现“检索→讲解”的流水线。
• 与工业知识库/RAG 结合:从结构化知识图与文档资产自动汇总要点,生成“工程汇报视频”(含光标指引、图表标注),并可与问答系统联动形成“看—问—答”的互动闭环。

十三、复现要点与工程建议(实操视角)
1)输入预处理:从论文 LaTeX 工程抽取结构(题目、作者、摘要、章节、图表),为 Beamer 生成提供“语义骨架”。
2)Beamer 代码模板化:准备最小可编译骨架(主题、字号、页脚),将章节段落映射为 frame/block/itemize;编译错误要收集行号与告警(overfull/underfull)。
3)树搜索细化策略:对含图页先扫图缩放(如 1.25/0.75/0.5/0.25),再降字体;渲染四宫格→VLM 判别;保留“选择理由”以便可解释回溯。
4)字幕与视觉提示:VLM 逐页生成 ≤50 词脚本与“每句唯一光标描述”;避免跨图漂移。
5)光标落点:用 GUI 代理模型将“描述”转为 (x,y);时间采用 WhisperX 对齐逐词—句级,句内光标保持静止,句间移动。
6)个性化语音与 Talker:预采集 10–20 秒高信噪音色样本;长视频按页并行合成,转场处统一背景/构图,必要时加轻量过渡。
7)导出合成:将每页(画面=幻灯片+光标+Talker)与对应音轨拼接,统一分辨率、帧率与码率,确保文本清晰度与压缩友好。

十四、结论
Paper2Video 系统性地把“论文→可用学术展示视频”从概念验证推进到“带评测、可复现、能落地”的阶段;PaperTalker 以多智能体协同与工程化约束实现了高信息密度、强对齐、接近实用质量的视频生成,并在“观众理解与记忆”两条主线上给出明确可比的量化指标。该工作为“AI4Research”的视频化传播开辟了新路径,也为未来的“交互式论文—多模态讲解体”奠定了方法与评测基础。


Paper2Video:https://github.com/showlab/Paper2Video

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注