学术出版商 Springer Nature 出版了第一本由机器学习生成的书籍——《锂离子电池:机器生成的当前研究摘要》,它概述了锂离子电池领域的最新研究成果,大约250页。
与电池研究一样有趣的是,它只与该项目的实际目的相关。人工智能的创造者,在本书的广泛而有趣的序言中,解释了他们的意图更多的是开始讨论机器生成的科学文献,从作者问题到技术和道德问题。
换句话说,他们的目的是产生问题,而不是答案。他们有丰富的问题:
谁是机器生成内容的创始人?算法的开发人员可以被视为作者吗?或者是从初始输入开始的人(例如“锂离子电池”作为术语)并调整各种参数?是否有指定的发起人?谁决定一台机器应该首先产生什么?从道德的角度来看,谁对机器生成的内容负责?
这里面用到的技术,是由Springer Nature和法拉克福歌德大学共同开发的一种先进算法:Beta Writer。它使用的是基于相似性的聚类分析,将海量的源文档排列成连贯的章节,然后创建文章的简洁摘要,同时,将文章内部加入超链接,这样利于读者进一步阅读原始的文章。
AI这种创新化的结构化摘录成书,有利于研究人员更高效地管理海量信息,以及人们从海量内容里快速选择、使用和处理相关领域的文档。
人工智能在这个高度技术性的主题上分发了数千篇关于1,086篇论文,分析它们以找到关键词,参考文献,“代词回指”等等。然后根据他们的发现对论文进行聚类和组织,以便以逻辑的、基于章的方式呈现。
代表性的句子和摘要必须从论文中提取,然后重新制定以供审查,这既是出于版权的原因,也是因为原文的语法在新的背景下可能不起作用。
AI必须很好地理解论文,它知道“它”是什么,并且在重构句子时,将“it”替换为该项,并且知道它可以取消“因此”和最后的旁注。
这必须完成数千次模拟,并且许多边缘情况会弹出模型不能正确处理或产生一些公认的笨拙的用语。
最终,这本书具有可读性和可以想象的有用性,已经将大约一万页的研究归结为大约250页。但正如研究人员所说,这一承诺要大得多。
这本书里面包含了2016-2018年发表过的150多篇权威研究论文。仅在过去3年,关于锂电子电池的研究论文就发表了超出53000篇,这对试图学习这一领域的科学家是一个巨大的挑战,但AI的自动扫描和总结输出,能让科学家们把更多时间用在重要的研究上。
这里的目标似乎并不遥远,就是能够告诉一项服务“给我一份50页的生物工程最后4年的总结。
可以预见,未来的学术出版以及各类书籍,将不再只是人为创造,而是有更多形式出现,包括了混合人机文本生成的书籍或完全由机器学习生成的文本。