AI科学时代,我们急需新的出版体系
【来源:虎嗅网】
科学研究是人类创造新知识最重要的方式,一个经济体和社会唯有持续注入新知识,才能保持活力,新知识往往也催生新思想,不让文化变成死水一潭。
但今天的科学离“人”越来越远了。它不像消费、娱乐和金融那样贴近日常生活,反而与公众之间隔着重重高墙,还有很多种“守门人”夹在中间。比如今天分享的文章中谈论的“科学论文”,过去本质上是“学者写给学者看的”。
从英国皇家学会期刊的时代开始,用科学论文进行交流与融合的效率原本不低,这甚至是人类伟大的发明,是一种跟互联网一样重要的社会协议。但发展到今天,这个系统已经把“科学家”和学生们都变成了某种“小白鼠”,想出各种方法激励他们写得更多、更快、更炫酷。这些代表人类理解自然和世界最高水平的知识,如何变成真正可以为每个人所使用和受益的东西,已经不是他们追求的目标了。
也许科学研究应该有DAY 1“用户”的思维,而不只是为“人类老板”服务和声誉积分的比拼。人们开始把机器看待成“用户”和伙伴(peers),这是一个好的开始。
《面向机器的出版》(publishing for machines)这篇文章的作者是Andrew White,他是新型科学研究机构FutureHouse的联合创始人与首席科学家,在之前的文章里我分享过FutureHouse如何通过人工智能科学家和自动化实验室加速科学发现的进程。
希望今天的文章对你有启发。
目前全球科研论文年发表量已超过1000万篇,科学文献总量达2.27亿篇。FutureHouse等公司正在研发人工智能科学家系统,这些系统将大幅提升论文产出量,成为科学研究的重要阅读者和写作者。现有学术出版体系难以承载这种变革,亟需构建全新的科研传播机制。笔者就此议题阐述若干思考如下。
受Seemay Chou的文章及SciFoo讨论会启发,我尝试系统梳理关于“面向机器而出版”(publishing for machines)的思考。当科学智能体成为学术文献的主要消费者时,论文写作与出版模式应如何变革(As scientific agents become a major consumer of scientific literature,what changes should be made for writing and publishing articles)?
关于学术出版的思考
科学论文及其引用机制是一项具有惊人预见性的伟大发明(The idea of a scientific paper with citations was an incredible and prescient invention)。尽管今时今日看似平常,但通过参考文献将文献嵌入更宏大的“科学语料库”这一构想,其革命性堪比文字书写的发明(the idea that written documents could be placed into a larger “corpus of science” via references is on the same level of the invention of writing)。
文字让我们能够存储并传递思想,但受限于单篇文档的篇幅。而文献引用机制使我们能够跨越人类世代存储对话与观测记录,如今已形成数百亿页的科学文本网络。
科学论文共同构成了一部超大规模的非线性文献,这是我们对数百年来科学论述的精粹提炼(an unthinkably large non-linear document that is our distillation of scientific discourse over the last few hundred years)。约2.25亿篇学术论文通过30亿条引用相互关联,其唯一可类比的是互联网(The only analogy is the internet)。
虽然互联网拥有更多文档与超链接,但科学文献对宇宙认知的呈现精度远胜于互联网。伴随着科学语料库的演进,我们不断发展自然语言以更好地表述科学推理与自然现象(we have evolved natural language to better reflect our reasoning about science and the natural phenomena)。
有人将互联网视为有限的训练资源,类比为化石燃料。按此比喻,互联网犹如重油,粘稠的黑色胶状物需加热才能管道输送,燃烧污染严重,仅适用于远洋货轮与公海廉价游轮。而科学文献则像“汽油”:经过蒸馏,更高效、更清洁。(Scientific literature is gas:distilled and efficient)
但科学论文对机器训练的影响尚未充分显现(scientific articles haven’t had such an impact on training machines)。我们的科学先辈犯了些错误:论文结构欠佳且禁锢于PDF格式,难以解析;科学家们普遍放弃了文章版权,削弱了有效追溯科学文献引用的能力(scientists have broadly given up the rights to the articles,undermining the ability to actually navigate the citations that make up the scientific corpus)。
这些失误导致互联网在及时性科学讨论方面超越了科学文献体系。若牛顿在世,他肯定会选择arXiv或Twitter这类最高效的成果发布方式,就像当年选择皇家学会会刊一样。
请注意,我并未指责权威期刊或同行评审制度(prestige journals or peer review)。我认为这些与科学出版本质是不同层面的问题。科学家每日查看简历中的期刊名称和h指数(google scholar h-indices)时,都在做出职业化的主动选择。
如果有一天,出版体系被一夜之间替换成个人邮件列表,那么订阅人数就会变成新的声望衡量标准(If we replaced publishing overnight with a personal email lists,the subscriber count would be the prestige measure)。或者,更糟糕的情况是,我们重新回到由机构主导的科学体系,那么一个科学家的职业道路就会在他18岁申请本科时被预设。
因此,当“科学”本身的生产者和消费者逐渐变成机器时,我们有必要同时正视出版体系的结构性问题(the structural issues of publishing as we undergo a transition towards having the producers and consumers become machines)。这正是促使我思考的动机所在。
机器读者
“面向机器的出版”(publishing for machines)有两个方面:作者和机器读者(the authors and the machine readers)。让我们先从机器作为读者的角度谈起(reader-as-a-machine perspective)。
我所构建的科学代理,会像普通研究者一样进行关键词搜索并下载论文(keyword searches and download papers)。而和普通研究者一样,它们也会遇到付费墙,难以获取文章。
它们还必须面对论文的碎片化问题(the fragmentation of a paper):元数据并没有随论文一同提供;补充信息是一些随机的链接;文章本身通常只是PDF,其中的图表、表格和正文彼此割裂(the metadata is not available with the paper;4 the supporting information is a random set of links;and the articles come back as PDFs with figures,tables,text separated)。
这些其实都是技术问题,完全可以轻易解决:为论文提供可机器读取的标准化URL接口,以统一格式呈现文本与图表,将元数据与支撑材料整合为单一压缩包。
更大的问题在于论文内容本身(A larger issue for machines as readers is the actual the content of papers)。现行论文遵循固定叙事模板,与实际科研过程严重脱节(Papers follow a certain formulaic narrative regardless of the actual scientific process that lead to them):
只报告成功结果,稿件结构被重构以追求说服力,单篇论文往往包含多重主张与假设,实质上是将实验/理论捆绑于同一主题下,且几乎总是以乐观的确定性结论收尾。真正的科学质疑精神被隐藏在同行评审和会议交流背后,还会出现审稿补充图表或有趣旁注等怪异附件。除非存在重大过失或公然欺诈,论文极少会被撤回或驳斥。
简言之,论文并不真实反映科学过程,而是被迫遵循一种如今已失去实际意义的职业标准(Papers just do not reflect the scientific process and they are written to conform to a professional standard that serves little purpose anymore)。
若简单地为机器优化论文,似乎只需完全剔除人类叙事:只保留数据、代码和假设检验结论(The easy answer to making papers for machines is to remove human narrative:just make the papers the data,the code,and an accepted/rejected hypothesis)。但我反对这种简化方案。
人类在知识提炼与讨论中具有不可替代的价值(Humans provide an extremely valuable role in distilling and discussing),我不主张消除人类叙事。同样,将数据与叙事分离的做法也令人不安,不存在脱离明确假设和研究方向选择的所谓“纯粹数据”(There is no such thing as “data” without explicit assumptions and choices that are based on some kind of research direction)。
好了,在这样的背景和限定条件下,以下是我相对成型的一些设想。
未来的论文
面向机器的未来论文应具备以下特质:
(1)从成果产出到论文发布的低延迟性(low latency from results to paper);
(2)明确阐述研究目的(假设或目标)(details on the purpose(hypothesis or goal)of the paper);
(3)提供“原始化”数据及明确的方法描述与最小化处理流程(”raw-ish” data with an explicit description of methods and the minimal processing done);
(4)结果清单需附带置信度评估、与既有文献的契合度分析以及支撑性论证(自然语言表述即可)(a list of results,along with confidence,concordance with existing literature,and analysis(natural language is fine)that supports them);
(5)包含关于本研究如何改变作者领域认知的真实讨论(discussion with actual commentary about how the paper changes the author’s perspective on the domain)。
下面我将详细阐释这些要求。
这些要素不必同时具备。无具体结果的论文可视为数据生成报告(A paper without results is a data generation paper);仅含讨论内容的可作同行评审(A paper with a discussion,but nothing else,could be a peer review);只有结果而无原始数据的是对前人研究的再分析(Results without data is a reanalysis of previous papers);单纯提出假设的则可归为观点论述(A hypothesis only is an opinion piece)。
延迟性是重大变革点(latency is a big change)。学术出版最初以聚合期刊信函的形式存在,因其是最高效的一对多传播机制(Research publications started as letters to aggregating journals because it was the fastest mechanism for one-to-many communication)。
我们需要重获这种速度感。出版提速必然会导致错误增加或数据/分析更新频次提升(Increasing the speed of publishing will lead to people making mistakes or updating datasets or analysis),这完全可以接受,只需上传新版本即可。正如下图所示,科学家早已悄无声息地使用版本控制功能:对5万份arXiv预印本的分析可见,平均每篇预印本更新达1.5次(注:此处保留原数据可视化描述,实际应配合图表说明)。
正常的科学文献体系只支持撤稿或勘误,而这通常被视为令人尴尬的事情。大约只有0.02%的科学文献被撤回过。相比之下,arXiv能够无缝、快速地更新预印本,这一机制揭示出:如果科学家们能够自由更正,他们修正论文的比例可能接近50%。
假设
论文开头必须明确提出一种研究目的,这通常是一个假设。这是科学中最具人类特征的活动:选择重要问题的判断力(the choice of what questions are important)。明确的研究目的为论文中的一系列决策提供了必要的上下文。
假设我认为蛋白质单体在细胞质中比在细胞膜上更常见。在这种情况下,如果我在分析中排除了定位在细胞核的蛋白质,就无需特别解释,因为细胞核与细胞质和细胞膜无关。但如果我的假设是无序蛋白的糖基化更少,那么我为什么要排除定位在细胞核的蛋白质就变得不言自明吗?并不是,这时就需要额外解释。一个开篇假设,正是为后续关于数据、处理和分析的决策提供了这样的上下文。
数据
在我看来,原始数据被过度神化了。将原始数据转化为可处理数据的第一步,必须由采集数据的人来完成。脱离实验的人无法做出这些处理决策。
比如,我可能知道在第2次的NMR实验中信号出现问题,是因为溶质沉淀,所以我应该直接截断6小时以后的数据。又或者这是来自LHC(大型强子对撞机)的数据,体量大到根本无法完整发布原始数据。
因此,采集数据的研究者(或智能体)应该来决定哪些清晰的步骤已经完成,然后把那一份数据标注为“准原始(raw-ish)”,并且不再进行进一步处理。
结果
结果应当是由证据支撑的论断,并且要与现有文献相互呼应。这才是真正推动科学增量的部分(This is the actual increment of science)。这里同样可以提供负面或矛盾的结果(This is the chance to provide negative or contradictory results as well)。
对分析过程的描述也是至关重要的,这既可以是代码,也可以是文本(The description of the analysis is also essential,and it might be code or text)。最美妙的是,如今代码与自然语言几乎可以互相转化,这得益于代码生成型大语言模型的进步。
讨论
讨论部分应体现作者对世界认知模型的更新。基于已知文献他们曾预期什么结果?哪些结果与他们的预期不符?在实验前的反事实推演中,作者认知模型至少需要哪些最小信息才能从系统理解中预测这些结果(In the counterfactual before doing the experiments,what minimal information could have been in the world model of the author to predict these results from their understanding of the system being studied)?即使没有新信息也无妨。讨论应具有主观性,因为这明确代表了作者的观点。
同行评审
科学是一种对抗性的过程(Science is an adversarial process)。每一个接收投稿的平台都必须应对大量的垃圾内容(Each venue accepting submissions has to deal with an enormous amount of spam)。科学领域存在强烈的需求,希望能轻易将内容塞进科学体系中。
在arXiv背后,他们一直在对抗由AI生成的低质量论文。这是必要的过程,只是这对科学家而言基本是不可见的。自动化的同行评审应该承担起应对这种冲击的任务,成为研究出版的前线。
人类的同行评审依然承担着极其重要的功能:提供一个带有后果的私人辩论机会(Human peer review of literature serves an extremely important purpose:providing opportunity for private debate with consequences)。
科学中的许多真正辩论发生在同行评审过程中(Much of the true debate of science occurs in the peer review)。因为风险很高,参与者必须表明自己的观点。这个过程有价值,但不应被隐藏在私密的评审中。
自动化评审应该检查的是:最佳实践是否遵循、文献引用是否正确、是否符合科学的格式与严谨性(Automated peer review should check for best practices,correct citations of the literature,and adherence to the format and rigor of science)。它应该与科学辩论本身解耦。
至于科学辩论,应该存在于其他形式中,而不是被埋没在私人通信中。同行评审中的科学辩论甚至可以以独立论文的形式存在。只是我在这点上没有强烈的信念,也不确定该如何解决。
我们不需要的东西
过去一年让我重新思考了“完全可复现的论文”(exactly reproducible papers)这个概念。此前,我支持论文能够通过技术手段实现“一键复现”,比如容器化、持续集成、分析代码的版本控制以及数据共享(one-click repeated via technology like containerization,continuous integration,version control of analysis code,and sharing of data)。我自己在一些论文里也做过这样的尝试。但我发现,这样做需要付出大量努力,而且非常脆弱,需要很多技巧来维持。
我不再认为这种工作量是必要的。只要分析足够标准化,现代科学智能体自会加载数据、解析信息、执行复杂运算并生成令人信服的图表。当然,能通过README文档在整洁仓库中实现全自动化固然好,但我不认为这应成为未来论文的必备要素。
阴性结果(Negative results)常在此类讨论中被提及。我其实并不强烈支持发表阴性结果,结果阴性的原因太多:可能是技术故障,可能是排查不足,可能是两周无进展后转向更优方案。而阳性结果(a positive result)至少证明了流程是基本畅通的。要真正验证阴性结果所需的工作量其实远超阳性结果。
所以我的观点是,“只要发表阴性结果”实际上是一个相当微妙且复杂的任务,我不认为这应该被当作科学出版的政策去强制执行。
Arcadia的“Icebox”项目尝试解决这个根本局限:他们报告阴性结果时标注具体原因(如“战略偏移”或“基础设施缺失”)(”strategic misalignment” or “lack of infrastructure”.),这是我见过最好的阴性结果处理方案。
期刊
对于人类读者而言,他们依然需要一定程度的内容筛选和策展。未来可能会出现“虚拟期刊”(virtual journals),它们仅仅是从快速涌现的机器出版物中进行内容策展。这类虚拟期刊可以由AI运营,通过系统自动筛选论文,而无需人工干预。
机器个性化推荐可能很有吸引力,但我认为依然需要共享的策展体系,这样人们才有共同的基础来讨论论文。(These could be operated by AI,having systems that surface papers without human intervention.It may be tempting to have these things be personalized,but I think it’s still useful to have a shared curation for people to discuss papers)
谁来运行机器出版平台?我不确定。我知道一些读者会立即联想到区块链和去中心化科学(decentralized science)。我认为去中心化系统可以解决部分技术问题,但仍然需要某种决策机构,来确定自动化审查的方式并管理资源(some kind of decision making body that decides how automated review is done and stewarding resources is necessary)。
Wikipedia是一个可以借鉴的成功案例,arXiv和openrXiv也是如此。一些更激进的出版思路也值得探索,比如research hub和Arcadia。
专业学会和商业出版商应参与其中,科学文献策展具有真实成本与价值(There are real costs and value in curating scientific literature)。但我希望商业模式更接近谷歌或推特:通过“内容策展”(curation of content)而非底层数据访问收费创造价值。
作者
作者能从这个体系中获得什么?首先是更少的发表阻力(Less friction to publish is one)。低延迟意味着发表论文只需数小时甚至数分钟,而不是数月(Low latency means hours or minutes to publish,not months)。
另一个好处是,在这个体系里,新颖性和影响力不会被预先评估,而是在事后体现(novelty and impact are not accounted for in such a system,except post-hoc)。从某种角度看,这反而是更多的工作。仅仅在一个高影响力因子期刊上发表论文,并不足以保证有人阅读。
该机器出版平台产生的引用若被谷歌学术视为“一级引用”,其将迅速超越传统引用。由于引用量已是全球学术机构心照不宣的绩效指标(尤其美国之外),即便非参与者也会青睐此系统,但将引发引用膨胀危机。
文献筛选将变得更困难(It will become much harder to wade through the literature),我已经更依赖自主研发的研究智能体(research agents),而非传统学术搜索产品。机器出版物将快速超越人类产出,达到年产千万甚至亿级的规模。
结论
必须尽快构建面向机器的科学出版体系(A system for machine-generated scientific publications must be built soon)。
在FutureHouse,我们已经有类似的内部体系,正在生成一套平行的科学知识语料库(at FutureHouse we have something siloed like this that is starting to generate a parallel corpus of scientific knowledge)。我相信其他“AI科学家竞赛”的参与者也在做同样的事情。如果没有一个公开可用的选项被建立,这将会对整个科学共同体造成严重损害。
反思
这些构想大体并非创新。此前已有诸多尝试:提高出版速度、默认开放获取、取消新颖性要求——例如《科学报告》《ACS Omega》《Frontiers》等期刊。但这些期刊通常充斥低质乏味的论文,我已内化了对这些期刊的负面信号,甚至不记得曾引用过其中的文章。然而我们的文献研究智能体(PaperQA2)却热衷阅读这些期刊,这令我困惑不已。或许只是我固守成见罢了。
若随机选取arXiv或bioRxiv的预印本,其质量通常也低于同行评审论文,其中不乏怪异低质之作。但如今99%具有影响力的人工智能研究都出现在arXiv上,这无疑推动了领域的巨大成功。
从这些过往实验的观察中能汲取什么教训?或许是执行力的重要性?或许是社群共识的关键性?又或许我们需要将“策展”与“出版”解耦(decouple curation from publishing),而我的观察正源于这种不必要的耦合。
本文来自微信公众号:范阳 (ID:beingmorehuman),作者:Andrew White(FutureHouse联合创始人),编辑:范阳