核心内容摘要
火影小王ccm
CellWhisperer是能通过自然语言交互探索单细胞数据的多模态大模型框架。
它联合学习多模态数据具备细胞注释、差异分析等功能。
研究显示其注释准确性接近专家水平优于传统工具。
系统与CELLxGENE Explorer集成提供聊天式界面支持用户数据分析为单细胞分析从代码驱动向智能对话式转变提供了新路径。
原文链接添加到了文末阅读原文。
本研究提出一种多模态大模型框架能够通过自然语言实现单细胞数据的交互式探索。
模型联合学习基因表达矩阵、低维嵌入、蛋白与染色质信息并通过专门的数据编码与检索机制使其具备理解细胞状态、识别关键标志物和解释簇间差异的能力。
该系统可执行细胞注释、差异分析、轨迹推断及跨模态整合并能自动生成可视化图形。
基准测试显示其注释准确性接近专家水平并在多模态推理中优于传统工具。
该研究展示了单细胞分析从代码驱动向智能对话式模式转变的可行性为多组学研究的自动化与普及提供了新路径。
背景介绍单细胞测序以前所未有的规模和细节表征了生物样本但数据解读仍然面临挑战。
文章能找到强调自己工作重要的背景貌似就这一句建模过程配对转录组和文本的多模态训练数据作者首先构建了一个超大规模的人类转录组训练数据集涵盖 GEO 的批量 RNA 测序数据以及 CELLxGENE Census 中衍生的伪批量单细胞转录组。
为使模型能够理解生物学背景开发了 LLM 辅助的智能注释流程根据元数据自动抽取关键信息如细胞类型、组织来源、疾病状态、样本处理方式并生成简洁、统一且具生物学语义的文本描述。
例如“来自Ⅱ期无转移的男性肾癌组织经 FFPE 保存”。
经过 ARCHS4 的统一重处理我们获得 705,430 个 GEO 批量转录组通过对数百个单细胞数据集按元数据分组并取平均表达值又构建了 376,983 个伪批量表达谱。
两者合并后共得到 1,082,413 个带结构化注释的高质量训练样本。
随后基于 CLIP 框架训练多模态CellWhisperer 嵌入模型使用 Geneformer之前发表的模型 处理转录组使用 BioBERT 之前发表的模型处理文本注释并将两种向量映射到共同的 2,048 维嵌入空间通过对比学习使对应文本与转录组彼此靠近。
评估显示其跨模态检索性能优异平均 AUROC
927并能够通过自由文本查询有效匹配转录组。
在此基础上微调了 Mistral 7B LLM使其能够将转录组嵌入作为额外输入进行关于细胞功能、基因调控和生物学过程的自然语言对话。
我们构建了 106,610 条训练对话包括事实问答和复杂的转录组解释任务。
最终模型不仅能回答自由文本问题还能对细胞状态和基因表达模式作出连贯解释。
应用展示中我们对 GEO 的 705,430 个转录组进行聚类并自动注释CellWhisperer 嵌入成功捕获细胞类型、组织、疾病和发育阶段等关键结构。
通过“infection”等词语查询还可在 UMAP 中高亮对应的免疫相关样本展示模型在知识检索与大规模数据理解中的能力。
CellWhisperer 可预测多种细胞特征为评估多模态 CellWhisperer 嵌入模型的生物学理解能力作者以零样本预测的方式测试其基于转录组自动识别细胞特征的能力。
研究选取未参与训练的专家标注数据集对每个转录组计算不同潜在细胞类型的 CellWhisperer 分数并评估其与真实标签的一致性。
结果显示在包含 24 个器官、483,152 个细胞的 Tabula Sapiens 数据集中模型在 20 种常见细胞类型上的 AUROC 达到
94在全部 177 类别中 AUROC 仍高达
91。
混淆主要出现在高度相似的细胞亚群之间。
对于免疫细胞数据ImmGen 和亚洲人群免疫单细胞数据AUROC 超过
99而在具有强批次效应的胰腺单细胞荟萃数据集中仍取得
89显示出良好稳健性。
尽管模型未专门训练用于细胞类型分类但其零样本表现超越基于标记的 CellAssign并与多种微调后的 scFM 模型相当。
进一步测试显示CellWhisperer 在疾病预测229 个亚型AUROC
82及组织来源预测中亦显著优于随机水平。
此外模型能通过纯文本提示隐式识别基因集相关性表明其学习到了广泛的生物学概念。
最终模型在数据整合基准中表现优越并对不同措辞的查询保持高度一致性进一步证明其嵌入空间对细胞状态具有稳健且可解释的生物学表示能力。
CellWhisperer 可识别器官发育的标记基因为展示 CellWhisperer 在复杂生物学场景中的应用能力作者将其应用于六个文献来源的人类胚胎发育单细胞 RNA 测序数据的荟萃分析共包含 95,092 个受精后 3–38 天的人类胚胎细胞均未用于训练。
模型对这些数据进行处理与注释后利用基于 LLM 的胚胎学阶段描述构建查询结果显示 CellWhisperer 得分能够准确反映四个关键发育阶段的时间顺序。
进一步地作者通过“心脏”等器官名称进行零样本文本查询成功捕捉到器官发生过程中关键基因的时序激活模式。
模型识别的器官标记基因与胎儿基因表达图谱中已知标记高度重叠并在 PubMed 中表现出显著更高的器官相关共同提及频率且与经典标记基因相当。
值得关注的是CellWhisperer 在每个器官中均额外识别出至少 10 个潜在新标记基因这些基因在文献共现分析、生物学功能富集以及三维人类胚胎空间表达图谱中均获得支持。
基于聊天功能的单细胞RNA测序数据分析与网页界面为提升 CellWhisperer 在真实场景中的可用性作者将其与单细胞可视化平台CELLxGENE Explorer深度集成形成一个具备聊天功能的交互式分析系统图4。
用户可在界面中以自然语言探索细胞特征包括自由文本搜索、自动簇注释和基于聊天的细胞解析。
以 Tabula Sapiens 数据集为例研究者输入查询“具有免疫功能的结构细胞”系统即在 UMAP 上高亮评分较高的细胞群并显示其多为已知具有免疫调节功能的内皮细胞、上皮细胞、成纤维细胞和周细胞。
随后用户可圈选细胞簇并让 CellWhisperer 生成更深入的自然语言描述内容涵盖细胞类型、器官归属、发育阶段、高表达基因与潜在免疫功能。
模型给出的关键基因与功能特征在 UMAP 基因表达投影中得到验证。
作者进一步使用困惑度评估聊天模型与转录组嵌入的一致性。
在 200 条问答对中匹配转录组的偏好达 90%并在分布外的细胞类型上仍保持最低困惑度优于 Mistral 7B 和 Llama
3 70B 的基础文本能力证明模型有效融合转录组信息。
加入高表达基因提示有轻微增益并已纳入在线工具。
对用户提供的单细胞RNA测序数据进行探索性分析为支持用户上传的数据分析作者构建了一个可自动计算 CellWhisperer 嵌入与注释的数据处理流程并与在线工具无缝集成。
研究以炎症性肠病患者与健康对照的结肠单细胞 RNA-seq 数据为案例。
在将数据导入 CellWhisperer 后系统自动生成聚类标签识别出包括上皮前体细胞、杯状细胞、活化 CD8⁺ T 细胞等关键细胞群。
通过查询“显示干细胞”模型在“循环回肠上皮前体细胞”簇中定位到高评分子集并在随后的对话中给出其生物学解释指出这些细胞具有典型的干细胞特征包括高表达 LGR5。
进一步比较炎症与非炎症组织可见后者具有更高干细胞评分提示慢性炎症削弱 LGR5⁺ 上皮干细胞这与原始研究和体外实验相符。
为对比作者使用传统生信流程重现分析包括数据预处理、scVI 批次校正、CellTypist 注释及差异基因分析。
尽管结论一致但该流程需 400 行代码及多款工具显著耗时且对经验要求高。
AI大模型从0到精通全套学习大礼包我在一线互联网企业工作十余年里指导过不少同行后辈。
帮助很多人得到了学习和成长。
只要你是真心想学AI大模型我这份资料就可以无偿共享给你学习。
大模型行业确实也需要更多的有志之士加入进来我也真心希望帮助大家学好这门技术如果日后有什么学习上的问题欢迎找我交流有技术上面的问题我是很愿意去帮助大家的如果你也想通过学大模型技术去帮助就业和转行可以扫描下方链接大模型重磅福利入门进阶全套104G学习资源包免费分享
从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点
AI大模型学习路线图还有视频解说全过程AI大模型学习路线
学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的
大模型面试题目详解
这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。
目前我正在和鲁博士共同进行人工智能的研究。
所有的视频由智泊AI老师录制且资料与智泊AI共享相互补充。
这份学习大礼包应该算是现在最全面的大模型学习资料了。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。
智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念通过动态追踪大模型开发、数据标注伦理等前沿技术趋势构建起前沿课程智能实训精准就业的高效培养体系。
课堂上不光教理论还带着学员做了十多个真实项目。
学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。
零基础转型非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界。
业务赋能 突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型。
获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】