Arc Institute发布虚拟细胞挑战赛:30万单细胞RNA测序数据集+双Transformer模型基准,加速基因沉默效应预测

🎯 情报来源:Hugging Face – Blog

2025年7月18日,Arc Institute正式启动虚拟细胞挑战赛(Virtual Cell Challenge),要求参赛者开发能预测基因沉默在未知细胞类型中效应的AI模型。该挑战赛提供包含22万个单细胞RNA测序数据(其中3.8万为未扰动对照细胞)的训练集,并发布基于双Transformer架构的STATE基准模型。

核心任务是通过CRISPR技术模拟基因沉默对细胞的影响,解决传统生物实验成本高、周期长的问题。STATE模型包含状态转换模型(ST)和状态嵌入模型(SE),前者使用Llama架构预测扰动后的转录组,后者通过BERT式预训练生成细胞嵌入,其基因嵌入技术融合了15B参数的ESM2蛋白质语言模型。

💡 核心要点

  • 30万数据集规模:训练集含220,000个单细胞RNA测序样本(38,000个未扰动对照细胞)
  • 双模型基准:STATE模型包含Llama架构的ST Transformer和BERT-like的SE模型,后者使用15B参数ESM2生成基因嵌入
  • 评估指标创新:采用扰动判别(PDiscNorm)和差异表达(DE)两项核心指标,需克服细胞异质性带来的噪声干扰
  • 技术突破点:通过「细胞语句」构造法将2048个高表达基因嵌入组合表征细胞状态
  • 开源支持:提供Colab教程和即将登陆HuggingFace的预训练模型

📌 情报分析

技术价值:极高
创新性融合蛋白质语言模型与细胞嵌入技术,STATE模型的「软分箱」表达编码算法有效解决转录组数据稀疏性问题。使用MMD(最大均值差异)作为损失函数在生物模拟领域具有方法论突破。

商业价值:高
据估算,传统药物筛选单个候选化合物成本约$100-$500,而虚拟细胞模拟可降低90%以上成本。挑战赛冠军模型预计将优先应用于Arc Institute合作的12家生物制药企业。

趋势预测:高
Gartner预测到2027年30%的临床前研究将采用数字孪生细胞技术。该挑战赛建立的标准数据集(含TMSB4X等高频沉默基因数据)可能成为行业基准,加速AI+生物计算的交叉学科发展。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索