Nature Biotechnology:破壁!AI为药物数据搭建“通用桥梁”,新药研发迎来“宇宙大一统”?

23小时前 生物探索 生物探索 发表于上海

CLIPⁿ深度学习框架整合异构高通量筛选数据,构建共享空间实现跨数据集药物功能预测,提升新药研发效率。

引言

新药的发现如同一场永无止境的远征,williamhill asia 拥有一个庞大到近乎无限的“化学宇宙”,其中潜藏着能够治愈疾病、延长生命的分子秘钥。然而,要从这亿万星辰中找到那颗“对”的星,过程却异常艰辛、昂贵且漫长。这正是新药研发面临的核心困境。为了加速这一进程,一种名为“高通量筛选”(High-Content Screening, HCS)的技术应运而生,它就像一台超高速“细胞照相机”,能够自动化地、大规模地捕捉药物作用于细胞后的微观变化,为williamhill asia 提供了海量的生物学数据。

然而,这些宝贵的数据资源却像一座座孤岛,散落在科研的汪洋大海中。由于不同的研究团队在实验设计、细胞类型、检测手段和分析方法上各不相同,导致这些数据“方言”各异,无法直接交流和整合。williamhill asia 如何才能打破这些壁垒,让沉睡的数据宝藏重焕生机?

7月11日,《Nature Biotechnology》上发表的一项开创性研究“Transitive prediction of small-molecule function through alignment of high-content screening resources”,为williamhill asia 带来了激动人心的答案。研究团队开发出一种名为CLIPⁿ的深度学习框架。它如同一位精通多门“数据方言”的宇宙级翻译官,巧妙地将这些来自不同时空、不同背景的高通量筛选数据集对齐,构建了一个共享的“通用语言空间”。这一突破不仅让williamhill asia 能够以前所未有的方式整合和理解药物数据,更开启了一种全新的“传递性预测”(transitive prediction)模式,让新药研发的早期探索阶段充满了无限可能。

图片

药物筛选的“巴别塔”困境:孤岛般的数据集

如果你想绘制一幅完整的世界地图,但你手头的资料却是几百年来由不同国家的探险家用各自的语言、度量衡和绘画风格绘制的零散海图。有些图用的是公里,有些是英里;有些图详细描绘了海岸线,有些则只标注了主要港口。你无法简单地将它们拼凑在一起,因为它们缺乏一个统一的标准。

这正是高通量筛选(HCS)领域面临的“巴别塔”困境。

HCS的本质,是一场精心策划的“细胞摄影展”。研究人员将细胞培养在特制的微孔板中,然后用成千上万种不同的候选小分子化合物去处理这些细胞。经过一段时间的培养后,再用荧光染料标记细胞内的特定结构,如细胞核、细胞骨架、线粒体等。最后,通过自动化显微镜对每个微孔进行拍照,并用复杂的图像分析软件提取出数百甚至上千个量化特征,比如细胞的大小、形状、纹理、荧光强度分布等等。这些特征共同构成了一个高维度的“细胞表型图谱”(phenotypic profile),就像是每个药物为细胞拍摄的一张“功能快照”。

理论上,如果两种药物能让细胞拍出相似的“快照”,它们很可能具有相似的作用机制。这便是“依罪推断”(guilt-by-association)的逻辑,也是HCS预测未知化合物功能的核心。

然而,问题恰恰出在这“快照”的拍摄和解读上。正如该研究所展示的,每一个HCS实验都充满了独特的“实验选择”(experimental choices)

细胞模型不同:有的研究用的是人肺癌细胞A549,有的用的是肝癌细胞HepG2,还有的是成纤维细胞。不同的细胞对药物的反应天然存在差异。

“染料”不同:有的实验标记的是细胞内的“细胞器标志物”(Organelle markers),有的则关注与疾病相关的“信号通路标志物”(Signaling markers)。

“相机”不同:研究人员可能使用不同品牌和型号的显微镜,如Operetta高内涵系统或Zeiss共聚焦显微镜,它们的成像原理和精度各异。

“后期处理软件”不同:从原始图像中提取特征的计算方法更是五花八门。有的团队使用学术界经典的“主成分分析”(Principal Component, PC),得到的是几个关键的主成分数值;有的则采用商业软件,进行“KS统计”(Kolmogorov–Smirnov statistics);还有的直接用“深度学习特征”(Deep features),生成的是计算机自己学到的抽象特征。

这些选择的任意组合,都会产生一个独特的“数据集方言”。一个数据集的细胞表型图谱可能是由50个主成分构成的向量,而另一个则是由上千个深度学习特征构成的向量。它们的维度不同、数值范围各异、生物学含义也完全不对应。这就导致了,williamhill asia 无法直接将A实验中化合物X的图谱,与B实验中化合物Y的图谱进行比较。过去二十年间,全球学术界和工业界积累了海量的HCS数据集,但它们就像一座座信息孤岛,彼此隔离,巨大的协同潜力被白白浪费。

寻找“宇宙翻译官”:CLIPⁿ的巧妙诞生

面对这座难以逾越的“巴别塔”,williamhill asia 是否注定无能为力?研究人员提出了一个绝妙的设想:虽然各个数据集的“方言”不同,但它们在描述某些“共同事物”时,或许可以为williamhill asia 提供一把破译密码的钥匙。这些“共同事物”,就是那些在多个不同实验中都被测试过的“参考化合物”(reference compounds)

比如,经典的抗癌药紫杉醇(Paclitaxel)是一种微管蛋白抑制剂,它在A549细胞、HepG2细胞中都会引起相似的细胞骨架变化。尽管在不同实验中,这种变化被描述成了不同的数据形式(比如一组PC值或一组深度特征),但其内在的生物学功能是恒定的。这些重叠的参考化合物,就成了连接不同数据集的“罗塞塔石碑”(Rosetta Stone),或者说“基准点”(fiducials)

CLIPⁿ框架的核心思想,就是利用这些稀疏的“基准点”,来学习如何将所有异构的数据集“翻译”到一个共享的、统一的“潜在空间”(latent space)中。

这个过程可以这样理解:

1. 为每种方言配备专属翻译器:CLIPⁿ并不试图用一个通用的模型去处理所有数据。相反,它为每一个数据集都训练了一个专属的“编码器”(encoder)。这个编码器就像一位专门的翻译,负责将该数据集特有的“细胞表型图谱”(原始特征空间)转换成一种标准化的“通用语”(潜在空间中的嵌入向量)。

2. 在“通用语”空间里对齐语义:CLIPⁿ的学习目标非常明确,它采用了一种称为“对比学习”(contrastive learning)的策略。在训练过程中,模型会同时看到来自所有数据集的参考化合物。首先,如果来自不同数据集的两个化合物属于同一类别(例如,它们都是“蛋白酶体抑制剂”),CLIPⁿ就会调整各自的编码器,使它们在潜在空间中的嵌入向量尽可能地靠近,即“拉近同义词”。反之,如果两个化合物属于不同类别,模型就会让它们的嵌入向量在潜在空间中相互远离,即“推开非同义词”

3. 迭代学习,全局优化:这个过程是全局性的。模型会轮流将每个数据集作为“枢轴”(pivot),与其他所有“辅助”(auxiliary)数据集进行对比,不断优化所有编码器。最终,它学到的这个潜在空间不再是任何一个原始数据集的简单映射,而是一个融合了所有数据集信息、经过高度整合的全新知识空间。

在这个由CLIPⁿ构建的“通用语”世界里,神奇的事情发生了。原本孤立的数据被彻底打通。一个在A数据集中未经表征的“神秘”化合物,现在可以被映射到这个共享空间。它的“邻居”可能来自B、C、D等任何其他数据集。通过分析这些“跨时空邻居”的身份,williamhill asia 就能“传递性地”预测出这个神秘化合物的功能。这就是“传递性预测”的威力——williamhill asia 无需重新进行昂贵的实验,就能在计算机上实现跨数据集的功能注释。

虚拟练兵场:CLIPⁿ的“翻译”能力大考验

在将CLIPⁿ投入到真实世界的复杂数据之前,研究人员首先在一个精心设计的“虚拟练兵场”中对它进行了严格的考验。他们通过计算机模拟生成了多个具有不同特征(如特征维度、数据缺失率、噪声水平)的虚拟数据集,但这些数据集的“正确答案”(即每个样本的类别)是已知的。

第一项测试:对齐能力
首先,要看CLIPⁿ能否把来自不同数据集的“同类项”真正地聚集在一起。研究人员使用“总变异距离”(total variation distance)这一指标来衡量。距离越小,代表对齐效果越好。结果显示,与其他集成方法(如经典的CCA和StabMAP)相比,CLIPⁿ的对齐效果遥遥领先。它的总变异距离中位数显著低于其他方法,且分布非常集中,表明其对齐既准确又稳定。

第二项测试:区分能力
其次,光聚拢还不够,还要能把“非同类项”清晰地分开。研究人员使用“F1分数”(F₁ score)来评估分类的准确性。结果显示,CLIPⁿ的F1分数平均达到了约0.8,几乎是第二名(基于多层感知机的监督学习方法MLP)的两倍,更是将CCA和StabMAP远远甩在身后。这证明在CLIPⁿ构建的潜在空间里,不同药物类别的界限清晰分明。

第三项测试:抗干扰能力
真实世界的数据充满了不完美。比如,在某个实验中,某些药物可能因为细胞不敏感或剂量太低而没有表现出活性。这些“无效数据”会不会干扰模型的判断?研究人员在模拟中引入了这种情况。他们发现,其他方法要么会将这些无效样本随机地散布在空间中,造成混乱;要么会错误地将它们也强行分开,导致过拟合。而CLIPⁿ则表现得非常“聪明”,它会将大部分无效样本聚集到一个独立的“中立区”,既不影响其他有活性类别的分离,也正确地反映了它们“无活性”的本质。

最终考验:真正的“传递性预测”
这是最关键的测试。研究人员在训练模型时,故意“隐藏”掉某些数据集中的某些药物类别,然后看模型能否在整合后的空间里,仅凭其他数据集的信息,正确预测出这些被隐藏样本的身份。结果再次证明了CLIPⁿ的强大。随着数据集数量的增加和噪声水平的提升,CLIPⁿ的预测准确率始终保持在高位,稳定地超越了所有对手。这证明,CLIPⁿ的“传递性预测”能力不是空谈,而是在严格的模拟考验中得到了验证的实战能力。

穿越二十年光阴:整合药物发现的历史长卷

模拟的成功给了研究人员巨大的信心,他们决定挑战一项前所未有的任务:整合横跨20年(从2004年到2023年)的13个真实的HCS数据集

这13个数据集堪称一部微缩的HCS技术发展史,它们来源广泛、技术多样,整合后包含了来自36个药物类别的14,382个参考化合物处理过的孔板数据,背后是超过千万个细胞的“功能快照”。

在整合之前,每个数据集都是一幅独立的、杂乱的“星图”。即使是同一类药物,在不同“星图”中的位置和分布也毫无规律可言。将它们放在一起,就像是13幅风格迥异的涂鸦,令人眼花缭乱。

而当CLIPⁿ施展其“魔法”后,奇迹发生了。

一幅统一、有序、信息丰富的“药物宇宙星图”呈现在williamhill asia 眼前。在这张全新的UMAP降维可视化图谱中:同类相聚,近邻有义。来自13个不同数据集的、属于同一作用机制的药物,现在都紧密地聚集在一起,形成了清晰的“星团”。例如,所有的“微管蛋白聚合抑制剂”(Tubulin polymerization inhibitor)、“mTOR抑制剂”、“蛋白酶体抑制剂”(Proteasome inhibitor)和“EGFR抑制剂”都各自抱团,泾渭分明。同时,生物学上相关的药物类别,在空间中的位置也相互靠近。这表明CLIPⁿ不仅对齐了标签,更捕捉到了药物背后深层的生物学关联。

量化分析进一步证实了这种协同效应。研究人员评估了整合前后,每个数据集中药物类别的分类准确性(F1分数)。结果发现,整合后的分类性能普遍得到了提升。对于那些在原始数据中就已经有一定区分度的类别(F1分数大于0.5),超过70%的情况在经过CLIPⁿ整合后,其分类准确性变得更高。这说明CLIPⁿ的整合不是简单的数据堆砌,而是实现了“1+1>2”的知识增益。

从预测到实证:实验室里的“寻宝”之旅

模型构建得再好,终究要在现实世界中接受检验。CLIPⁿ真的能发现那些被传统方法遗漏的“宝藏”吗?研究团队设计了一场精彩的实验验证。

他们将焦点放在了两个包含了大量未知化合物的数据集上。在这两个数据集中,总共有超过1万种化合物被筛选,其中有429种显示出了区别于阴性对照(DMSO)的生物活性。

传统方法的局限是明显的:如果仅使用单个数据集内的参考药物进行预测,只有53.3%的活性化合物能够被高置信度地归类。而当使用CLIPⁿ整合所有13个数据集的参考信息进行“传递性预测”后,高置信度预测的比例飙升至76.3%!这意味着,借助更广阔的“知识网络”,许多原本模糊的信号现在变得清晰起来。

研究人员从中挑选了55个“最有趣”的候选者——这些化合物在CLIPⁿ的预测中置信度很高,但在原始的单数据集分析中却置信度很低。它们是CLIPⁿ挖掘出的、最有可能被传统方法错过的“潜力股”。

接下来,就是激动人心的实验室验证环节。针对不同的预测类别,研究人员设计了高度特异性的“金标准”检测实验。实验结果堪称惊艳!在55个被测试的化合物中,高达38个(占比近70%)在对应的特异性检测中显示出显著的生物活性,完美印证了CLIPⁿ的预测。

显微镜下的图像提供了最直观的证据。一个被CLIPⁿ预测为“微管蛋白抑制剂”的化合物(编号136513),处理过的细胞中,微管蛋白网络完全解体,呈现出典型的药物作用表型,与已知的参考药物“阿苯达唑”(Albendazole)效果几乎一致。另一个被预测为“mTOR抑制剂”的化合物(编号80997),则能显著抑制细胞内pS6蛋白的磷酸化水平,其效果与参考药物Torin 1相当。

更深一步的分析揭示了CLIPⁿ的非凡潜力。在这些被成功验证的“新药苗子”中,有些在化学结构上与已知数据库(ChEMBL)中报道的活性分子有相似之处,而这些已知的活性分子并未包含在CLIPⁿ的训练数据中。这说明CLIPⁿ能够超越训练集,真正识别出化学结构与生物功能之间的联系。最令人兴奋的是,还有一些被验证的“新药苗子”,在已知数据库中找不到任何结构相似的“亲戚”。这意味着,CLIPⁿ不仅能找到已知的活性骨架,更有能力发现全新的、具有独特化学结构的先导化合物,为新药研发开辟了全新的化学空间。

CLIPⁿ的无限宇宙:拥抱更多数据维度与挑战

这项研究的意义远不止于此。研究人员还展示了CLIPⁿ框架惊人的可扩展性和通用性。

即时更新的知识库
当一个新的、庞大的数据集(如来自Recursion制药公司的RxRx3数据集)发布时,williamhill asia 是否需要从头开始,将所有数据重新训练一遍?研究表明,不必如此。CLIPⁿ支持一种更高效的“合并策略”(merge strategy),即冻结原有的整合空间,只为新数据集学习一个编码器,将其“注入”到现有的知识体系中。这种方法的准确性与完全重训练相差无几,但速度却快了整整五倍。这使得CLIPⁿ系统可以像一个动态的、不断学习的知识库,随时吸收和整合新的数据资源。

跨越模态的对话
CLIPⁿ的能力甚至超越了图像数据。它能否让不同“模态”(modality)的数据,比如细胞图像和基因表达谱,实现“跨界对话”?答案是肯定的。研究团队成功地将6个图像数据集与2个著名的转录组数据集(LINCS L1000)进行了整合。结果,在一个统一的潜在空间里,药物的分类边界变得比任何单一模态的数据都更加清晰。这就像一个翻译官,不仅精通视觉语言(图像),还精通文本语言(基因表达),并能将两者完美融合,提供更全面的理解。

超越药物的视野
CLIPⁿ的应用场景也不局限于药物筛选。研究人员将其应用于一个完全不同的生物学问题:追踪细胞在不同时长的“缺氧”(hypoxia)胁迫下的表型变化轨迹。在这个场景里,不同的缺氧时长就扮演了原先“药物类别”的角色。即便是面对不完整、不重叠的时间点数据,CLIPⁿ依然成功地重构出了一条清晰的、反映细胞从常氧到长期缺氧适应过程的“压力轨迹”。这充分证明了CLIPⁿ框架的普适性,它可以被广泛应用于各种需要整合异构生物学数据的场景。

一种细胞对话的统一语言:未来已来

CLIPⁿ的诞生,为williamhill asia 解决HCS数据整合这一长期存在的挑战,提供了一个强大而优雅的解决方案。它通过巧妙的对比学习和专属编码器设计,成功地为描述细胞状态的各种“数据方言”创造了一种“统一语言”

这项工作的重要性在于,它将从根本上改变williamhill asia 利用生物学数据的方式。它让williamhill asia 能够:唤醒沉睡数据,盘活全球实验室过去数十年积累的宝贵数据资源;加速功能注释,通过高效的“传递性预测”快速获得化合物的潜在功能;提升研发效率,通过整合多源信息,提高了预测的准确性和置信度,从而降低新药研发的成本和失败风险。

未来,CLIPⁿ的应用前景广阔无垠。正如研究人员所设想的,它可以被扩展到整合基于CRISPR基因编辑的筛选数据,将基因功能图谱与药物功能图谱联系起来;也可以融合更多维度的检测数据,构建一个前所未有的、全面的细胞状态模型。

可以说,CLIPⁿ为williamhill asia 描绘了一幅新药发现的未来蓝图:一个不再由孤立实验构成,而是由一个全球性的、持续学习和迭代的整合知识网络驱动的新范式。在这个范式中,每一个新的数据点都将不再是一座孤岛,而是汇入知识的江海,为williamhill asia 战胜疾病的伟大征程贡献自己的力量。这场由AI引领的数据“宇宙大一统”,或许已经悄然拉开序幕。

参考文献

Bao F, Li L, Hammerlindl H, Shen SQ, Hammerlindl S, Altschuler SJ, Wu LF. Transitive prediction of small-molecule function through alignment of high-content screening resources. Nat Biotechnol. 2025 Jul 11. doi: 10.1038/s41587-025-02729-2. Epub ahead of print. PMID: 40646169.

评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=2273711, encodeId=623022e371178, content=<a href='/topic/show?id=1b01102e67a6' target=_blank style='color:#2F92EE;'>#高通量筛选#</a> <a href='/topic/show?id=f01012862950' target=_blank style='color:#2F92EE;'>#CLIPⁿ#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=3, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=128629, encryptionId=f01012862950, topicName=CLIPⁿ), TopicDto(id=102767, encryptionId=1b01102e67a6, topicName=高通量筛选)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=cade5395722, createdName=williamhill asia 管理员, createdTime=Thu Jul 17 11:51:42 CST 2025, time=22小时前, status=1, ipAttribution=上海)]
    22小时前 williamhill asia 管理员 来自上海

相关威廉亚洲官网

高通量筛选递送RNA疫苗的脂质体制剂

目前,伦敦帝国理工学院医学系的研究人员正利用一台高通量单细胞封装设备,来开发针对HIV、流感、狂犬病和衣原体等感染病的RNA疫苗新型脂质体制剂。

西湖大学马丽佳团队开发In-library Ligation策略,促进联合免疫治疗靶点高通量筛选

西湖大学生命科学学院马丽佳团队关心是否可以基于 CRISPR 基因编辑技术,设计出一种能够高通量筛选影响细胞表型的多基因组合的技术。

Comb Chem High Throughput Screen:中药方益肾祛痛颗粒治疗原发性肺癌的关键活性药物成分鉴定

该文献主要报道了益肾祛痛颗粒(YSQTG)在原发性肺癌(LC)治疗中的抗肿瘤作用,鉴定其关键活性药物成分(API),并探讨其可能的作用机制。

盘点:Nature等:DNA编码文库或推动制药公司新药开发新高度

药物的发现是一项非常艰巨的工作,其需要化学家们从数百万种化合物中筛选最终寻找最适合的那一个,而DNA技术或许就可以明显加速药物的发现之旅。 在麻省沃尔瑟姆市一个普通混凝土楼房二楼的实验室冰箱中保存着一个具有明确标识的检测管,该管中含有天文学数字尺度那么多的混合物,而这些众多的化合物属于制药公司葛兰素史克(GSK)所有,其中包含有1万亿个特殊的DNA标记的分子,其数量是银河系中行星数量的10倍