Cell 计算医学前沿:“女娲模型”解码基因调控“语法”

【来源:虎嗅网】

本文来自微信公众号:集智俱乐部 (ID:swarma_org),作者:刘培源

导语

高质量的数据是AI驱动生命科学的重要瓶颈。近日,浙江大学郭国骥团队在《Cell》发表最新研究,开发了超高通量单细胞染色质开放测序技术(UUATAC-seq),并构建跨物种单细胞深度学习模型(女娲CE),实现了调控序列的精准预测和疾病相关突变功能验证,发现了跨物种的基因调控“语法”,为计算医学提供了新的工具和思路。

7月10日(周四)19:00-21:00,我们特别邀请到郭国骥老师在“计算医学研讨会”第二期活动中分享这一最新研究成果。“AI驱动的计算医学前沿:从科学发现到数字孪生”系列研讨会由DAMO开发者矩阵与集智俱乐部联合主办,深入探讨AI与生物医学交叉的最新进展。

刘培源丨作者

论文地址:https://doi.org/10.1016/j.cell.2025.06.020

AI正在深刻影响生命科学,尤其在多组学领域。过去几年,AI算法在蛋白质结构预测(如AlphaFold)和基因功能解析(如Enformer)等方向上接连取得突破。然而,用AI实现生命系统的精准建模,依赖于覆盖多物种、多细胞类型的高质量数据。在基因组与表观基因组领域,这类数据的缺乏已成为制约AI深入理解基因调控机制的瓶颈。

其中有代表性的是细胞染色质的开放状态数据。染色质开放状态决定了DNA序列能否被转录因子等调控蛋白有效识别和结合,从而直接影响基因的表达与调控。因此,染色质可及性分析(如ATAC-seq)成为揭示基因组功能的重要技术手段,能够帮助我们明确基因组中哪些区域处于染色质开放状态。但目前单细胞水平的ATAC-seq(转座酶可及染色质测序)技术,普遍存在通量低、灵敏度不足等问题,难以为AI模型提供充足且高质量的训练数据。

浙江大学郭国骥团队7月8日在《Cell》杂志发表的最新工作,回应了上述挑战。团队开发了UUATAC-seq(超高通量单核ATAC测序)技术,首次实现单日内构建跨物种的单细胞染色质图谱。该研究基于新测序技术,进一步提出了深度学习模型NvwaCE(女娲CE),实现了跨物种、跨细胞类型的单细胞调控序列精准预测。这项研究不仅显著提升了AI模型在基因调控领域的预测性能,也为后续研究提供了高质量的数据基础与全新思路。

单细胞染色质测序新方法

具体而言,UUATAC-seq通过一种四轮条码标记方法,实现了高效率、高精度的单细胞处理。与传统单细胞测序方法相比,这一技术利用创新的双端同型转座酶切设计,大幅提高了对开放染色质区域DNA片段的捕获效率。同时,利用温控接头转换策略,在每一轮细胞混合与分组过程中精确加入新的条码标签,有效避免了细胞之间标签的交叉污染。

图1(原图1A)UUATAC‑seq的实验流程与“四轮池拆条码”设计,高效完成单细胞染色质检测。第一步,利用特殊的酶给每个细胞的DNA打上初始标签条码;第二步,细胞混合后,再给每个细胞添加一个独特标签;第三步,通过温度控制的方式精确加入第三个标签;最后一步,通过DNA扩增加入第四个标签,完成单细胞水平的染色质分析。

基于这些改进,UUATAC-seq可在单日内完成对多个物种、数十万细胞核的染色质可及性分析,数据质量和实验通量显著优于现有的单细胞测序技术,为后续AI模型的高效训练提供了坚实的数据基础。

基因调控“语法”的AI预测模型

在获得高质量数据基础上,郭国骥团队进一步构建了一个强大的AI模型:NvwaCE(女娲CE)。该模型直接以DNA序列作为输入,以单细胞(single-cell)甚至单核(single-nucleus)级别的分辨率精准预测染色质开放性,从而系统地解读隐藏于基因组序列中的调控“语法”。

其中,CE指顺式调控元件(cis-regulatory element),即基因组中不直接编码蛋白质、但能调控基因表达的功能序列。这些调控元件能够决定哪些基因、何时何地被激活或关闭,从而控制细胞类型的多样性。以往基因组AI模型大多侧重于从DNA序列的相似性来预测功能。女娲CE则侧重从DNA序列中直接学习染色质的开放状态及其调控模式,而非简单基于序列匹配。

这种策略使得女娲CE能够有效识别跨物种的普适的调控序列语法,并由此揭示脊椎动物细胞功能调控中的通用规律。

具体而言,女娲CE模型采用了多任务深度学习架构(图2),其核心结构由卷积网络CNN与残差网络ResNeXt组成,能够有效捕捉DNA序列中复杂的模式特征与多尺度信息。模型以固定长度(500 bp)的基因组序列为输入,经卷积层和瓶颈层的特征压缩后,最终输出这段序列在数万个单细胞核内处于染色质开放状态(调控元件活跃)的概率。

在性能评估中,女娲CE模型表现出卓越的预测能力,在不同物种的染色质开放状态预测任务中均达到高精度(AUROC>0.80,部分甚至达到0.99),明显优于主流模型(如scBasset和Transformer)。更重要的是,即便对于未经过训练的物种(如鸡、壁虎、蝾螈、斑马鱼),模型依然具有很强的泛化预测能力。

这表明调控元件背后的“序列语法”远比DNA序列本身更为保守,更揭示了脊椎动物基因调控的共性。此外,女娲CE还能自动识别出与神经、免疫、脂代谢等功能相关的序列模块,不仅提高了预测准确度,也增强了模型的可解释性。

功能验证与精准医学应用

这项研究进一步探索了女娲CE模型在实际生物医学问题中的应用潜力,特别是在针对人类疾病相关非编码调控元件的突变效应预测方面,评估了该模型的精准医学价值。

团队选取了361个已知与人类疾病密切相关的精细定位非编码位点,逐一利用女娲CE模型进行突变功能效应预测,成功鉴定出265个具有明确功能影响的关键变异位点,明显优于传统方法。

团队还利用基因编辑实验,首次在人体细胞中验证了完全由AI精准预测的疾病治疗关键位点(胎儿血红蛋白基因HBG1-68:A>G)。这为AI在临床治疗靶点设计中的应用提供了明确的实验证据。

跨尺度与跨物种的研究前景

在这项工作中,研究团队揭示了跨物种的调控序列共性规律。他们发现不同脊椎动物的基因组中,调控元件数量随着基因组规模的扩增而稳定增加(图3),但每个调控元件自身的长度则相对稳定。这意味着在不同物种之间可能存在某种普遍的、内在的调控设计原则。

图3(原图4F)展示了脊椎动物基因组规模(Genome size)与候选顺式调控元件数量(Number of cCREs)之间显著的线性关系,揭示了不同物种基因组中,调控元件数量随基因组规模扩增而稳定增加的规律。

如何在物种、组织、细胞类型等不同生命尺度之间发现普适规律,一直是生命科学的重要挑战,也是系统科学的主战场,更是当前AI for Science的主要靶标。

近两年来,一系列新兴AI方法,均尝试以不同的策略和尺度来解码生命系统的功能信息。例如,Evo 2模型从基因组序列的宏观尺度,尝试用大规模参数模型来统一不同种类的序列信息;而ChromBPNet则致力于细致刻画碱基尺度上的调控序列与染色质状态的关系。但这些工作普遍受到训练数据尺度与类型的限制,难以从根本上解决“单细胞—全基因组”这一交叉尺度问题。

在此背景下,女娲CE模型的突破,不依赖于ENCODE(DNA元件百科全书计划)的复杂数据体系,就能够实现单细胞水平的序列功能预测,并且理解大量隐藏的特异性调控规则。

总之,郭国骥团队的最新工作,为全面解读基因组语言和建立数字生命模型,奠定了更实的基础。尤其是女娲CE模型在跨物种泛化预测和非编码变异功能验证中的成功,有望加速精准医学和合成生物学发展,进一步打开AI for Science的想象空间。

AI驱动的计算医学前沿研讨会

生命科学与医学领域正经历着深刻的智能革命。大语言模型与多智能体技术快速发展,正在推动形成计算医学(Computational Medicine)新范式,为精准医疗、疾病诊断和健康管理开辟全新路径。AI驱动的计算医学在自主探索、跨尺度数据融合、个体建模与数字孪生等方面快速发展,然而跨学科合作与方法论整合仍是重要挑战。

为此,DAMO开发者矩阵(由阿里巴巴达摩院和中国互联网协会联合发起)与集智俱乐部共同主办“AI驱动的计算医学前沿:从科学发现到数字孪生”系列研讨会,邀请多位国内外前沿学者与业界专家分享交流。系列研讨会将系统梳理计算医学与AI交叉领域的最新进展,自2025年7月6日(周日)开始,共5大议题分享与讨论。欢迎相关研究、应用领域的朋友报名参加,共同推动生命科学与医疗健康的智能未来!

本活动免费报名,实行审核入群制,请填写信息后入群参与交流并获得每期活动信息。

详情请见:AI驱动的计算医学前沿研讨会开启报名:从科学发现到数字孪生