How AI is transforming research: More papers, less quality, and a strained review system, 这篇来自 UC Berkeley Haas School of Business 新闻室的文章,围绕一项发表在 Science 的研究(Scientific production in the era of large language models),讨论“大模型(LLM)正在如何改变学术研究生态”:论文产量激增,但质量信号被“打乱”,同行评审与科研评估体系承压。
文章在讲什么
- 文章以 Mathijs De Vaan 的经历切入:学术写作需要巨大劳动,而LLM像“写作搭档”能润色语言、帮助非英语母语研究者把科学贡献更清晰地表达出来。
- 但随着LLM在学界“从新奇变常态”,作者与合作者更关心的是:AI带来的到底只是效率提升,还是会从根本上改变科研产出、筛选与评价机制。
研究怎么做的(文章转述)
- 研究团队(包括 Toby E. Stuart 等,以及 Cornell University 研究者)分析了 2018年1月—2024年6月 上传到三大预印本平台(arXiv、bioRxiv、SSRN)的 200多万篇论文。
- 使用“检测算法”推断哪些作者可能在写作中使用了AI;对比其采用AI前后产出数量变化;并用量化指标衡量“写作复杂度/精致度”,再看这些论文后来是否进入期刊发表(通过同行评审)。
核心发现(文章重点)
- 产量显著上升
采用LLM的研究者,手稿产出明显增加:在 bioRxiv 与 SSRN 上增幅 超过50%;在 arXiv 上 超过三分之一。 - 对非英语母语者的“杠杆效应”更大
文章称:第一语言非英语的研究者收益更明显;以“亚洲姓名/亚洲机构”为特征的一组样本,在生物与社科方向的产量提升接近 90%;而英语国家机构的增幅更“温和”(约 24%–46%)。文章将其解读为:AI可能在“英语作为学术记录语言”的体系里,部分抹平语言门槛,改变全球科研产出格局。 - AI搜索可能扩展“知识视野”
文中提到:带LLM能力的搜索工具(例:Bing Chat)更擅长找到更新的论文与相关书籍,相比之下传统检索更偏向旧的、被频繁引用的材料;这有助于研究者在信息爆炸中更深更广地追踪相关工作。 - 最刺耳的结论:写得越“像样”,越不一定是好科学(在AI辅助下甚至反过来)
传统上,清晰而复杂的写作常被视为严谨性的信号:能把复杂思想说清楚,往往意味着对问题掌握更扎实,也更容易通过评审并获得引用。
但研究发现:在AI辅助论文中,这种关系不只是减弱,而是“反转”——写作越复杂精致的AI辅助稿,反而越不容易进入同行评审期刊发表;文章据此推断:润色后的“漂亮文字”可能掩盖了更弱的科学实质。
文章的担忧与建议
- 同行评审与科研评价系统被“洪水”冲击:大量“看起来很强但可能空洞”的稿件涌入,使评审者、资助方、政策制定者更难区分哪些值得支持、哪些可能是边际贡献甚至误导。
- 可能的应对方向:研究提出,AI也许能临时“自救”——用更专门的“审稿代理/过滤器”先做质量阈值筛查,再交给人类评审;但更根本的仍是制度层面的实验与调整(新的评价标准、资助模型、验证机制等),并且应尽早开始。