Cell 计算医学前沿：“女娲模型”解码基因调控“语法”

【来源：虎嗅网】

本文来自微信公众号：集智俱乐部（ID：swarma_org），作者：刘培源

导语

高质量的数据是AI驱动生命科学的重要瓶颈。近日，浙江大学郭国骥团队在《Cell》发表最新研究，开发了超高通量单细胞染色质开放测序技术（UUATAC-seq），并构建跨物种单细胞深度学习模型（女娲CE），实现了调控序列的精准预测和疾病相关突变功能验证，发现了跨物种的基因调控“语法”，为计算医学提供了新的工具和思路。

7月10日（周四）19:00-21:00，我们特别邀请到郭国骥老师在“计算医学研讨会”第二期活动中分享这一最新研究成果。“AI驱动的计算医学前沿：从科学发现到数字孪生”系列研讨会由DAMO开发者矩阵与集智俱乐部联合主办，深入探讨AI与生物医学交叉的最新进展。

刘培源丨作者

论文地址：https://doi.org/10.1016/j.cell.2025.06.020

AI正在深刻影响生命科学，尤其在多组学领域。过去几年，AI算法在蛋白质结构预测（如AlphaFold）和基因功能解析（如Enformer）等方向上接连取得突破。然而，用AI实现生命系统的精准建模，依赖于覆盖多物种、多细胞类型的高质量数据。在基因组与表观基因组领域，这类数据的缺乏已成为制约AI深入理解基因调控机制的瓶颈。

其中有代表性的是细胞染色质的开放状态数据。染色质开放状态决定了DNA序列能否被转录因子等调控蛋白有效识别和结合，从而直接影响基因的表达与调控。因此，染色质可及性分析（如ATAC-seq）成为揭示基因组功能的重要技术手段，能够帮助我们明确基因组中哪些区域处于染色质开放状态。但目前单细胞水平的ATAC-seq（转座酶可及染色质测序）技术，普遍存在通量低、灵敏度不足等问题，难以为AI模型提供充足且高质量的训练数据。

浙江大学郭国骥团队7月8日在《Cell》杂志发表的最新工作，回应了上述挑战。团队开发了UUATAC-seq（超高通量单核ATAC测序）技术，首次实现单日内构建跨物种的单细胞染色质图谱。该研究基于新测序技术，进一步提出了深度学习模型NvwaCE（女娲CE），实现了跨物种、跨细胞类型的单细胞调控序列精准预测。这项研究不仅显著提升了AI模型在基因调控领域的预测性能，也为后续研究提供了高质量的数据基础与全新思路。

单细胞染色质测序新方法

具体而言，UUATAC-seq通过一种四轮条码标记方法，实现了高效率、高精度的单细胞处理。与传统单细胞测序方法相比，这一技术利用创新的双端同型转座酶切设计，大幅提高了对开放染色质区域DNA片段的捕获效率。同时，利用温控接头转换策略，在每一轮细胞混合与分组过程中精确加入新的条码标签，有效避免了细胞之间标签的交叉污染。

图1（原图1A）UUATAC‑seq的实验流程与“四轮池拆条码”设计，高效完成单细胞染色质检测。第一步，利用特殊的酶给每个细胞的DNA打上初始标签条码；第二步，细胞混合后，再给每个细胞添加一个独特标签；第三步，通过温度控制的方式精确加入第三个标签；最后一步，通过DNA扩增加入第四个标签，完成单细胞水平的染色质分析。

基于这些改进，UUATAC-seq可在单日内完成对多个物种、数十万细胞核的染色质可及性分析，数据质量和实验通量显著优于现有的单细胞测序技术，为后续AI模型的高效训练提供了坚实的数据基础。

基因调控“语法”的AI预测模型

在获得高质量数据基础上，郭国骥团队进一步构建了一个强大的AI模型：NvwaCE（女娲CE）。该模型直接以DNA序列作为输入，以单细胞（single-cell）甚至单核（single-nucleus）级别的分辨率精准预测染色质开放性，从而系统地解读隐藏于基因组序列中的调控“语法”。

其中，CE指顺式调控元件（cis-regulatory element），即基因组中不直接编码蛋白质、但能调控基因表达的功能序列。这些调控元件能够决定哪些基因、何时何地被激活或关闭，从而控制细胞类型的多样性。以往基因组AI模型大多侧重于从DNA序列的相似性来预测功能。女娲CE则侧重从DNA序列中直接学习染色质的开放状态及其调控模式，而非简单基于序列匹配。

这种策略使得女娲CE能够有效识别跨物种的普适的调控序列语法，并由此揭示脊椎动物细胞功能调控中的通用规律。

具体而言，女娲CE模型采用了多任务深度学习架构（图2），其核心结构由卷积网络CNN与残差网络ResNeXt组成，能够有效捕捉DNA序列中复杂的模式特征与多尺度信息。模型以固定长度（500 bp）的基因组序列为输入，经卷积层和瓶颈层的特征压缩后，最终输出这段序列在数万个单细胞核内处于染色质开放状态（调控元件活跃）的概率。

在性能评估中，女娲CE模型表现出卓越的预测能力，在不同物种的染色质开放状态预测任务中均达到高精度（AUROC>0.80，部分甚至达到0.99），明显优于主流模型（如scBasset和Transformer）。更重要的是，即便对于未经过训练的物种（如鸡、壁虎、蝾螈、斑马鱼），模型依然具有很强的泛化预测能力。

这表明调控元件背后的“序列语法”远比DNA序列本身更为保守，更揭示了脊椎动物基因调控的共性。此外，女娲CE还能自动识别出与神经、免疫、脂代谢等功能相关的序列模块，不仅提高了预测准确度，也增强了模型的可解释性。

功能验证与精准医学应用

这项研究进一步探索了女娲CE模型在实际生物医学问题中的应用潜力，特别是在针对人类疾病相关非编码调控元件的突变效应预测方面，评估了该模型的精准医学价值。

团队选取了361个已知与人类疾病密切相关的精细定位非编码位点，逐一利用女娲CE模型进行突变功能效应预测，成功鉴定出265个具有明确功能影响的关键变异位点，明显优于传统方法。

团队还利用基因编辑实验，首次在人体细胞中验证了完全由AI精准预测的疾病治疗关键位点（胎儿血红蛋白基因HBG1-68:A>G）。这为AI在临床治疗靶点设计中的应用提供了明确的实验证据。

跨尺度与跨物种的研究前景

在这项工作中，研究团队揭示了跨物种的调控序列共性规律。他们发现不同脊椎动物的基因组中，调控元件数量随着基因组规模的扩增而稳定增加（图3），但每个调控元件自身的长度则相对稳定。这意味着在不同物种之间可能存在某种普遍的、内在的调控设计原则。

图3（原图4F）展示了脊椎动物基因组规模（Genome size）与候选顺式调控元件数量（Number of cCREs）之间显著的线性关系，揭示了不同物种基因组中，调控元件数量随基因组规模扩增而稳定增加的规律。

如何在物种、组织、细胞类型等不同生命尺度之间发现普适规律，一直是生命科学的重要挑战，也是系统科学的主战场，更是当前AI for Science的主要靶标。

近两年来，一系列新兴AI方法，均尝试以不同的策略和尺度来解码生命系统的功能信息。例如，Evo 2模型从基因组序列的宏观尺度，尝试用大规模参数模型来统一不同种类的序列信息；而ChromBPNet则致力于细致刻画碱基尺度上的调控序列与染色质状态的关系。但这些工作普遍受到训练数据尺度与类型的限制，难以从根本上解决“单细胞—全基因组”这一交叉尺度问题。

在此背景下，女娲CE模型的突破，不依赖于ENCODE（DNA元件百科全书计划）的复杂数据体系，就能够实现单细胞水平的序列功能预测，并且理解大量隐藏的特异性调控规则。

总之，郭国骥团队的最新工作，为全面解读基因组语言和建立数字生命模型，奠定了更实的基础。尤其是女娲CE模型在跨物种泛化预测和非编码变异功能验证中的成功，有望加速精准医学和合成生物学发展，进一步打开AI for Science的想象空间。

AI驱动的计算医学前沿研讨会

生命科学与医学领域正经历着深刻的智能革命。大语言模型与多智能体技术快速发展，正在推动形成计算医学（Computational Medicine）新范式，为精准医疗、疾病诊断和健康管理开辟全新路径。AI驱动的计算医学在自主探索、跨尺度数据融合、个体建模与数字孪生等方面快速发展，然而跨学科合作与方法论整合仍是重要挑战。

为此，DAMO开发者矩阵（由阿里巴巴达摩院和中国互联网协会联合发起）与集智俱乐部共同主办 “AI驱动的计算医学前沿：从科学发现到数字孪生”系列研讨会，邀请多位国内外前沿学者与业界专家分享交流。系列研讨会将系统梳理计算医学与AI交叉领域的最新进展，自2025年7月6日（周日）开始，共5大议题分享与讨论。欢迎相关研究、应用领域的朋友报名参加，共同推动生命科学与医疗健康的智能未来！

本活动免费报名，实行审核入群制，请填写信息后入群参与交流并获得每期活动信息。

详情请见：AI驱动的计算医学前沿研讨会开启报名：从科学发现到数字孪生

要不要取消C刊？关键在于如何“立新”

存储系统如何用好SSD？

德国小朋友生日会，给我的文化冲击

比特币等突发闪崩 24小时内超12亿美元头寸被平仓！

要不要取消C刊？关键在于如何“立新”

上海期货业服务实体专项立功竞赛结果揭晓

北京好的特护养老院有哪些,普乐时光(认知症)养老中心等,“朝阳”团队书写的时光记忆书2025年10月最新

关键支撑已遭试探黄金反弹或暗藏杀机

比特币等突发闪崩 24小时内超12亿美元头寸被平仓！

炳叔：买书修道，推荐《全球科技通史》

为什么抑郁的人总担心自己变贫穷？

炳叔：联想全球化之后，公关的七级浮屠

炳叔：你支持的是哪种华为？

比特币等突发闪崩 24小时内超12亿美元头寸被平仓！

要不要取消C刊？关键在于如何“立新”

上海期货业服务实体专项立功竞赛结果揭晓

北京好的特护养老院有哪些,普乐时光(认知症)养老中心等,“朝阳”团队书写的时光记忆书2025年10月最新

关键支撑已遭试探黄金反弹或暗藏杀机

比特币等突发闪崩 24小时内超12亿美元头寸被平仓！

要不要取消C刊？关键在于如何“立新”

上海期货业服务实体专项立功竞赛结果揭晓

北京好的特护养老院有哪些,普乐时光(认知症)养老中心等,“朝阳”团队书写的时光记忆书2025年10月最新

关键支撑已遭试探黄金反弹或暗藏杀机

更多你感兴趣的

你也许感兴趣