0.前言大壮病了,躺了三天吃了两顿,靠钢铁意志挺过来了,刚能下床,嗓子还不能说话,赶快完结一个年前的草稿。单身朋友们赶快找对象,没个对象真惨,不然就会像大壮这样,只身在外,病了还没人给端茶倒水,全靠扛。这个论文工科味太浓了,很多医生朋友看完不知道是讲什么,感觉很玄学, 其实逻辑还是很严密的,看不懂没事,就看看概念,认识点“拽词”,写本子干啥的可以用一用。论文发表日期:2024.1.8《nature method》主要发表一些新颖的方法和基础生命科学研究技术的重大改进。工科味道很浓,更关注方法和技术的应用创新,适合工科体质的宝宝。朋友们要有追求,有梦想,干一个顶刊,子刊也可以啊。加油!
0.1论文信息
0.2期刊信息
0.3相关概念
图神经网络图神经网络(Graph Neural Networks,简称GNNs)是一类神经网络,专门用于处理图结构数据。在图结构数据中,实体以节点(vertices)的形式出现,实体之间的关系表示为边(edges)。图数据的典型例子包括社交网络、分子结构、知识图谱、通信网络以及许多其他领域的数据集。
图池化(Graph Pooling)
是图神经网络(Graph Neural Networks, GNNs)中的一个概念,它涉及到在神经网络内部减少图中的节点数,从而减小图的规模,简化网络的复杂性,并提炼出重要的特征。图池化类似于在卷积神经网络(Convolutional Neural Networks, CNNs)中用于图像的池化(pooling)操作,其目的是缩减模型的空间尺寸,降低计算需求,同时保留重要信息。
组织细胞邻域(tissue cellular neighborhoods,TCN)
这个概念指的是特定组织中不同类型细胞的空间组织布局(这个概念还是有点抽象)。就像城市中的社区,房屋、商店、学校和其他建筑物被布置在一个明确的区域内,组织内的细胞也以复杂而有序的模式排列,以促进组织的正常功能。组织中的每个“邻域”由各种不同类型的细胞组成,这些细胞相互之间进行交互。这些邻域内的细胞通过直接接触或分泌信号分子进行通信。
1.论文简介
(1)目前对组织内不同细胞如何组织自身来支持组织功能的理解还不够充分。作者提出一种基于细胞表型及其空间分布的识别组织细胞邻域(TCN)的细胞群落算法(CytoCommunity)。
(2)CytoCommunity使用一个图神经网络模型直接学习细胞表型空间到TCN空间的映射,没有中间聚类的细胞嵌入。
(3)利用图池化(graph pooling)技术,CytoCommunity可以在有监督数据(带有标签的样本)下从零开始识别特定条件和TCNs利用几种类型的空间组学数据,作者的算法能够识别出大小不一的TCNs,并且与现有方法相比有显著提升。通过分析不同风险结直肠癌和乳腺癌数据,CytoCommunity算法揭示了特定于高风险肿瘤粒细胞的TCNs和与癌症相关的、富含成纤维细胞的TCNs,以及这些TCNs内部及其间的肿瘤细胞与免疫或间质细胞之间的交互作用发生。CytoCommunity可以进行空间组学图谱的无监督和监督分析,能够实现不同空间尺度的特定条件下的细胞间交流模式。
2.数据
本研究使用都是开源数据,这一点很适合手头没有数据的哥们,只要技术好,没有自己的数据也可以发顶刊,这一点改变大家刻板印象,好的论文必须用自己的数据。
朋友们,可以继续挖一挖,多省事,数据都是现成的,就看谁的点子好。
本研究使用了八个公开可用的数据集
(1)小鼠脾脏的CODEX数据集(https://data.mendeley.com/datasets/zjnpwh8m5b/1)
(2)小鼠下丘脑前区的MERFISH数据集(https://datadryad.org/stash/dataset/doi:10.5061/dryad.8t8s248
(3)小鼠视皮层的STARmap数据集(http://clarityresourcecenter.org/)
(4)人类三阴性乳腺癌的MIBI-TOF数据集(https://mibi-share.ionpath.com)
(5)人类结直肠癌的CODEX数据集(https://data.mendeley.com/datasets/mpjzbtfgfr/1)
(6)人类乳腺癌的IMC数据集(https://zenodo.org/record/3518284#.Y2UQ0-xBybg)
(7)人类胰腺导管腺癌的ST数据集(GSE111672)
(8)人类背外侧前额叶皮层的Visium数据集(http://research.libd.org/spatialLIBD/)。
3.方法简介
(1)无监督模型识别
TCNsCytoCommunity算法由两个组成部分构成
一个软TCN分配学习模块和一个TCN集成模块,用以确定最终的稳健TCNs(这里工科味道太浓厚了,涉及一些工科概念)。如下图,
1) 软TCN分配学习模块
使用单细胞空间图,其中包含细胞类型的注释和细胞的空间坐标。首先构造一个带有节点属性(细胞类型)的无向k-NN图(细胞空间图)。每个细胞以节点的形式存在,而这些节点属性向量通过one-hot编码来表示细胞类型。
2)构建细胞空间图:
根据细胞间的欧氏距离(就是空间距离),首先构建有向k-NN图,每个节点连接到其最近的k个邻居。从有向k-NN图转换成无向图作为细胞空间图,排除自环,并输入到图神经网络(GNN)模型中进行处理。
3)k值设置
由于所有的空间组学数据集使用的是相同的技术和来自同类型的组织,k值默认设置为数据集中不同空间图平均细胞数量的平方根。研究还通过改变k值来评估算法的稳健性,并证实不同k值得出的TCN划分是稳健的。
(2)有监督模型识别全新条件特异性TCNs
1)识别条件特异性TCN
在不同条件下的多个空间组学图谱数据集中,可以先识别出每张图的TCN,再对它们进行对齐以找出特定情况下的TCN。
2)TCN对齐问题
TCN对齐类似图中的社区对齐,在计算上是NP难问题。为了解决这个问题,提出了使用可微图池化方法以保持TCN分区信息的图嵌入表示。
3)基于图池化的图分类框架
通过将无监督图划分模型调整到基于图池化的图分类框架,可以在学习过程中自动对齐不同空间图的TCN,从而帮助全新识别具体条件下的TCNs。
4)图池化和粗糙图生成:
使用图卷积和全连接层得到软TCN分配矩阵,并采用可微图池化层生成粗糙图,这样的图是全连接的,每个汇总节点代表一个TCN,含有一组具有相似软TCN分配的细胞,边的权重表示TCNs之间的连接强度。
3.学习心得
· 关注微观层面“TCN”组织细胞邻域,避开了卷。
使用的是开源数据,这点值得学习,之前认识一些朋友们一年发表10到20篇SCI,绝大多是使用开源数据或者合作,这样才能量产,数据都是现成的,剩下就是干活的事情。
· 这篇论文“工科味”太浓了,所以读起来已有一些不适,但是归根结底,工科也就是一个技术手段、还是要服务医学研究的,所以大家不要怕。
· NM这个期刊比较关注技术,浏览了一些历史文章,都是用工科技术挖掘生物、医学这方面信息和规律,很多做蛋白质结构预测的。更适合工科体质的宝宝。
· 该研究使用的是图神经网络结构来研究细胞之间的关系,这一点也比较合适,图神经网络其实出现的也很早了,就是大家用的少,算是有新意的。
· 在图神经网络结构的基础上,根据数据特征,分别使用了有监督和无监督算法进一步优化,这一块有不少工科概念。· · 最后又在不同风险级别的直肠癌、乳腺癌数据集上做了验证和探索。
参考:
[1]本文Hu Y, Rong J, Xu Y, Xie R, Peng J, Gao L, Tan K. Unsupervised and supervised discovery of tissue cellular neighborhoods from cell phenotypes. Nat Methods. 2024 Feb;21(2):267-278. doi:10.1038/s41592-023-02124-2IF:48.0 Q1 . Epub 2024 Jan 8. PMID:38191930; PMCID:PMC10864185.