1/7生物医学论文摘要由AI撰写- 科学新闻-今日科学

1/7生物医学论文摘要由AI撰写

作者：王方来源：中国科学报发布时间：2025/7/4 15:37:31

字体大小：－│＋

一项针对学术文献的大规模分析显示，去年发表的生物医学论文摘要中，约1/7可能借助人工智能（AI）完成撰写。2024年，医学数据库PubMed收录的150万篇摘要中，超过20万篇包含大型语言模型（LLM）常推荐使用的词汇。

相关研究于2024年6月以预印本形式在线公布，当时预计上半年约1/9的摘要由AI辅助完成。上述最新分析结果则在今年7月2日发表于《科学进展》。

图片来源：Nicolas Economou/NurPhoto via Getty

英国伦敦大学学院的Andrew Gray表示：“由LLM编辑的论文数量一直‘不可阻挡地增长’。”他认为，研究人员尚未充分认识到这些工具被用于产出学术成果的规模，“希望这篇论文能推动人们关注这一问题”。

许多团队试图评估LLM对学术产出的影响，但这一过程颇具挑战性，因为大多数使用者并未披露这种行为。常见方法是训练模型识别人类与LLM生成文本的差异，再将其应用于文献评估。然而，目前尚不清楚此类模型如何区分两种文本，且训练数据集未必能反映LLM生成文本的最新趋势。

德国图宾根大学的Dmitry Kobak及同事采用了更开放的研究方法。他们在摘要中搜索2022年11月ChatGPT普及后出现频率异常升高的“冗余词汇”。

研究发现，2024年有454个词汇的出现频率远高于2010年以来的任何年份。它们多为与研究内容无关的“风格词”，且以动词和形容词为主。其中既有常见词汇“发现”“潜力”，也有较生僻的词汇“探究”“展现”。Kobak指出，2024年下半年新增的冗余词汇包括“显著增强”“妨碍”，以及“无与伦比”“极有用”等最高级形容词。

科学词汇的演变是长期过程。2021年有190个“冗余词汇”，多为与研究内容相关的名词。但自LLM普及以来的词汇变化更为显著，且主要体现在风格层面。

此外，在计算科学和生物信息学等领域，超过1/5的摘要由LLM辅助撰写。“今年的整体数据可能进一步上升，LLM的使用仍在持续增加。”Kobak表示。AI实际使用率可能比最新研究显示的更高。

2月，法国巴黎高等师范学院的Mingmeng Geng及同事在预印本平台arXiv公布的研究中指出，部分标志性词汇和短语，如“探究”在2024年底的出现频率有所下降。他认为，这可能是由于相关研究将其标记为“使用AI”，促使作者删除此类词汇，或调整LLM请求以规避检测。

随着作者不断调整策略，评估AI对学术文献影响的研究变得越发困难。另一大挑战在于，包括Kobak团队在内的研究均无法确定AI工具的具体使用方式。作者可能将其用于合理场景，如润色文本或辅助翻译，也可能涉及更具争议的做法，如在缺乏适当监督的情况下生成大段文本。“这其中存在真正的科研诚信隐患。”Gray说。

相关论文信息：https://doi.org/10.48550/arXiv.2406.07016

信源地址：/html/shownews.aspx

本文转载仅仅是出于传播信息的需要，并不意味着代表本网站观点或证实其内容的真实性；如其他媒体、网站或个人从本网站转载使用，须保留本网站注明的“来源”，并自负版权等法律责任；作者如果不希望被转载或者联系转载稿费等事宜，请与我们接洽。