《贝瑶陈慕楚》贝瑶 陈慕楚(最新章节已完结全集完整版大结局)小说全文阅读笔趣阁
请+ 即可取全文
书名:《贝瑶陈慕楚》贝瑶 陈慕楚
主角:《贝瑶陈慕楚》贝瑶 陈慕楚
部分文段阅读:
请+ 即可取全文
第二天,贝瑶拉着陈慕楚换上了情侣装,才出了门。
两人去了游乐园,坐了摩天轮,看了电影,还吃了烛光晚餐……
所有情侣夫妻该做的事,她都想要和陈慕楚做一遍。
可一天的时间过得太快,还什么都来不及做,便已入夜。
躺在床上,贝瑶侧过身凝视着身边的男人:“慕楚,用译制腔给我讲童话故事吧。”
她最爱的就是陈慕楚作为外交官与人沟通时的声音,让人迷恋沉醉。
陈慕楚怔愣了下,就又听贝瑶问:“抱着我好不好?”
四目相对,陈慕楚沉默了瞬,还是一一照做。
徐徐的低沉男音中,时间匆匆划过。
夜深,陈慕楚的呼吸渐渐平稳。
贝瑶睁开双眼,目不转睛地看着这个让她喜欢了近二十年的男人。
她情不自禁地伸出手,抚上陈慕楚的脸,而后缓缓向下……
刚移至锁骨,她的手突然被攥住,耳边传来陈慕楚低沉的声音:“别乱动。”
然而贝瑶却凑得更近。
她勾起抹笑:“最后再满足我一次。”
陈慕楚拦不住她的动作,被折腾地浑身冒火。
理智被燃灭,他握住她的腰,直接封住她的唇。
……
翌日,两人吃过早饭,就去了离婚办事处。
出来时,天空乌云密布,细雨连绵,浇在身上冰凉一片。
贝瑶的掌心,却被紧攥着的离婚证烫的发抖。
她咬着唇忍下心底涩痛,拿出把伞递给陈慕楚:“下雨了,拿着吧。”
“不用。”陈慕楚望向几步外,“她来了。”
贝瑶一顿,顺着他的视线看去。
就见不远处,顾雪琳正举着雨伞,浅浅微笑。
第四章 交给你
请+ 即可取全文
书名:《贝瑶陈慕楚》贝瑶 陈慕楚
主角:《贝瑶陈慕楚》贝瑶 陈慕楚
部分文段阅读:
请+ 即可取全文
第二天,贝瑶拉着陈慕楚换上了情侣装,才出了门。
两人去了游乐园,坐了摩天轮,看了电影,还吃了烛光晚餐……
所有情侣夫妻该做的事,她都想要和陈慕楚做一遍。
可一天的时间过得太快,还什么都来不及做,便已入夜。
躺在床上,贝瑶侧过身凝视着身边的男人:“慕楚,用译制腔给我讲童话故事吧。”
她最爱的就是陈慕楚作为外交官与人沟通时的声音,让人迷恋沉醉。
陈慕楚怔愣了下,就又听贝瑶问:“抱着我好不好?”
四目相对,陈慕楚沉默了瞬,还是一一照做。
徐徐的低沉男音中,时间匆匆划过。
夜深,陈慕楚的呼吸渐渐平稳。
贝瑶睁开双眼,目不转睛地看着这个让她喜欢了近二十年的男人。
她情不自禁地伸出手,抚上陈慕楚的脸,而后缓缓向下……
刚移至锁骨,她的手突然被攥住,耳边传来陈慕楚低沉的声音:“别乱动。”
然而贝瑶却凑得更近。
她勾起抹笑:“最后再满足我一次。”
陈慕楚拦不住她的动作,被折腾地浑身冒火。
理智被燃灭,他握住她的腰,直接封住她的唇。
……
翌日,两人吃过早饭,就去了离婚办事处。
出来时,天空乌云密布,细雨连绵,浇在身上冰凉一片。
贝瑶的掌心,却被紧攥着的离婚证烫的发抖。
她咬着唇忍下心底涩痛,拿出把伞递给陈慕楚:“下雨了,拿着吧。”
“不用。”陈慕楚望向几步外,“她来了。”
贝瑶一顿,顺着他的视线看去。
就见不远处,顾雪琳正举着雨伞,浅浅微笑。
第四章 交给你
《夏巧萤孟旭承》夏巧萤 孟旭承最新热门虐心好看小说(今日热议)笔趣阁
请+ 即可取全文
书名:《夏巧萤孟旭承》夏巧萤 孟旭承
主角:《夏巧萤孟旭承》夏巧萤 孟旭承
部分文段阅读:家鸡犬不宁,而她的命运也缓缓滑落深渊。
果然,到了晚上。
当一家子人齐聚饭桌上,吃饭吃到一半。
孟旭承放下筷子,张口就是:“爸,妈,我准备去深市做生意。”
桌上一瞬死寂后。
孟父勃然大怒:“胡闹!让你参军你不参,居然想去做个体户!你要是敢去,老子打断你的腿!”
孟母回过神也忙道:“旭承,你不要胡来,你这刚结婚才半个月怎么就要走?巧萤,你也快劝劝你男人……”
夏巧萤听着跟前两世一模一样的话,不觉握紧了筷子。
她看着孟旭承看向自己时不耐烦地皱着的眉头,心口更是隐隐刺痛起来。
而她更知道,接下来孟旭承会说出‘她还不配对我指手画脚’,然后直接起身离开。
夏巧萤闭了闭眼,深吸一口气道:“我支持旭承去深市。”
夏巧萤的话让桌上瞬间寂静了,所有人惊讶得失声。
最惊奇的就是孟旭承。
结婚这大半个月,但凡他晚回家一点,夏巧萤就要大嗓门嚷嚷得整个大院都知道。
现在他要去千里外的深市,她居然说支持!
但夏巧萤的话,却让原本暴怒的孟父,神色愈发难看!
孟母更是冷声呵斥:“巧萤,知道你想帮你男人,但你不懂就不能乱说话,光知道跟着瞎胡闹!”
这顿饭吃得不欢而散。
回到房间。
夏巧萤用帕子擦了脸,上炕去。
孟旭承当即往里侧移过去,跟夏巧萤一人一边。
结婚这半个月,两人没有亲密过。
昏黄灯光下,孟旭承英俊的侧脸映入夏巧萤眼眸。
他英俊,有才干,要不是娃娃亲,他于她来说就像那天上的星星,怎么都碰不着。
好吧,既碰不着,那就不碰便是了。
请+ 即可取全文
请+ 即可取全文
书名:《夏巧萤孟旭承》夏巧萤 孟旭承
主角:《夏巧萤孟旭承》夏巧萤 孟旭承
部分文段阅读:家鸡犬不宁,而她的命运也缓缓滑落深渊。
果然,到了晚上。
当一家子人齐聚饭桌上,吃饭吃到一半。
孟旭承放下筷子,张口就是:“爸,妈,我准备去深市做生意。”
桌上一瞬死寂后。
孟父勃然大怒:“胡闹!让你参军你不参,居然想去做个体户!你要是敢去,老子打断你的腿!”
孟母回过神也忙道:“旭承,你不要胡来,你这刚结婚才半个月怎么就要走?巧萤,你也快劝劝你男人……”
夏巧萤听着跟前两世一模一样的话,不觉握紧了筷子。
她看着孟旭承看向自己时不耐烦地皱着的眉头,心口更是隐隐刺痛起来。
而她更知道,接下来孟旭承会说出‘她还不配对我指手画脚’,然后直接起身离开。
夏巧萤闭了闭眼,深吸一口气道:“我支持旭承去深市。”
夏巧萤的话让桌上瞬间寂静了,所有人惊讶得失声。
最惊奇的就是孟旭承。
结婚这大半个月,但凡他晚回家一点,夏巧萤就要大嗓门嚷嚷得整个大院都知道。
现在他要去千里外的深市,她居然说支持!
但夏巧萤的话,却让原本暴怒的孟父,神色愈发难看!
孟母更是冷声呵斥:“巧萤,知道你想帮你男人,但你不懂就不能乱说话,光知道跟着瞎胡闹!”
这顿饭吃得不欢而散。
回到房间。
夏巧萤用帕子擦了脸,上炕去。
孟旭承当即往里侧移过去,跟夏巧萤一人一边。
结婚这半个月,两人没有亲密过。
昏黄灯光下,孟旭承英俊的侧脸映入夏巧萤眼眸。
他英俊,有才干,要不是娃娃亲,他于她来说就像那天上的星星,怎么都碰不着。
好吧,既碰不着,那就不碰便是了。
请+ 即可取全文
生信必备|掌握R语言在单细胞转录组数据分析中的应用
单细胞测序以单个细胞为单位,通过全基因组或转录组扩增,进行高通量测序,能够揭示单个细胞的基因结构和基因表达状态,反映细胞间的异质性,单细胞测序技术的流程主要包括:单细胞制备、单细胞分离和文库制备、测序和初级分析、数据可视化和解读4个方面。
单细胞测序的发展与基本流程:
单细胞悬液制备:
⏩组织细胞裂解
1.机械法:通过切割、切块、移液器吹打等方法机械切割和破坏组织
2.酶解法:使用胶原酶、胰蛋白酶、中性蛋白酶、弹性蛋白酶等多种酶来消化组织,裂解蛋白键
3.组合方案:在自动化系统的帮助下,机械法和酶解法可以依次或同时进行,实现更广泛的裂解
⏩富集
1.离心:通过密度梯度离心,根据细胞大小、形状或密度富集细胞
2.基于磁珠的富集:通过磁珠结合抗体的阳性/阴性筛选来富集感兴趣的细胞群(包括活细胞)
3.流式细胞荧光分选:通过荧光基团/荧光素结合抗体的阳性/阴性筛选来富集感兴趣的细胞群(包括活细胞)
4.微流体细胞分选:利用基于荧光基团/荧光素结合抗体的阳性/阴性筛选的低压微流体,来富集感兴趣的细胞群
⏩质量控制
方法:细胞计数仪、流式细胞仪;
评估指标:细胞大小、活率、是否有聚集物、浓度是否合适。
文库制备及测序:
⏩单细胞分析的扩增方法
⏩文库及测序
根据测序平台进行建库,文库构建完成后进行文库质检及测序
10X Genomics 全基因组解码系统:
⏩优势:
超高细胞通量:微流体“双十字”交叉系统为8通道系统,每个通道最高可捕获10000细胞,8通道一次可检测细胞范围为500-80000个细胞;
细胞捕获效率高:单个细胞捕获效率高达65%,可准确鉴别稀有细胞类型,利于稀有样本或小细胞量类型样本研究;
多态率低:多态率(同一个GEM包含2个及2个以上细胞)低于0.9%/1000细胞。
数据分析:
⏩数据分析(一):数据预处理
原始测序数据经过处理得到分子计数矩阵(count matrix),或者reads count(读数矩阵)。这取决于单细胞文库构建方案中是否包含唯一分子标识符(UMl,unique molecular identifiers)。
获得的reads或count矩阵的行数等于barcodes的数目,列数等于基因数目。这里使用术语barcodes而不是cell,因为分配给相同barcode的所有reads可能并不只是来源于同一细胞。
因为文库构建时每个细胞是独立的,所以每个细胞的mRNA也就特异的标记了孔特异性或液滴特异性细胞barcode。此外,许多实验方案还使用唯一分子标识符(UMI)标记捕获的RNA分子。一般在测序之前需要先扩增细胞cDNA以增加其被检测的可能性。但微量扩增更容易引入PCR偏好性。UMI使我们能够区分测到的reads是来源于mRNA分子的不同扩增拷贝还是来源于独立的mRNA分子,从而可以进行更准确的定量。
⏩数据分析(二):数据质控QC
在分析单细胞基因表达数据之前,我们必须确保所有barcode都对应于有效细胞(viable cells,有活力的细胞)。质控有3个指标:测到的转录本分子总数、测到的基因总数、来源于线粒体基因的转录本所占比例。
质控就是检查这3个指标的分布中是否存在异常峰并设置阈值去除。这些异常的barcodes可能对应于死细胞、细胞膜破损的细胞或doublets。比如,如果某个barcode对应的样品测到的分子总数低、检测到的基因数少、线粒体基因所占比例高,则表明该样品可能存在细胞膜破损导致细胞质RNA漏出,只有线粒体中的RNA保留了下来。相反,如果某个barcode对应的样品有异常高的总分子数和检测到的基因数,则有可能这个样品包含2个或以上细胞(doublets)。
⏩数据分析(三):数据标准化
计数矩阵中的每个数值代表细胞中一个mRNA分子被成功捕获、逆转录和测序。由于每个操作步骤固有的可变性,即便同一个细胞测序两次获得的计数深度也可能会有所不同。因此,当基于原始计数数据比较细胞之间的基因表达时,得到的差异可能来自于技术原因。Normalization可以通过调整计数数据(scaling count data)等解决这一问题,以获得细胞之间可比的相对基因表达丰度。
最常用的标准化方法是测序深度标准化,也称为“每百万计数”或CPM normalization。该方法来自普通转录组表达分析,使用每个细胞的测序深度作为sizefactor对计数数据进行标准化。CPM标准化假设数据集中的所有细胞最初都包含相等数量的mRNA分子,并且计数深度差异来源于技术问题。
由于单细胞数据集通常由大小和分子数不同的异质细胞群体组成,因此通常需要更复杂的标准化方法。例如,Weinreb et al对CPM算法进行了扩展,在计算size factors时排除在任何细胞中总计数大于5%的基因。这一方法屏蔽掉少数高表达基因对总体表达变化的影响。软件包Scran的pooling-based size factor方法对细胞异质性的影响处理更好。首先把细胞合并到一起避免technical dropout效应,然后基于基因表达的线性回归型估算size factor。这一方法允许细胞有少于50%的差异表达基因,并且在不同的测试评估研究中这一标准化方法都表现最好。
标准化是对细胞计数数据进行缩放处理以使其在细胞之间可比,也可以在基因层面对基因计数进行归一化(scale)以便于基因内部进行直接比较。
基因归一化是指一个基因减去其在所有样品表达的均值然后除以其在所有样品表达值的标准差。归一化后,这个基因在所有样品表达值均值为0,用单位方差形式表示其表达值。归一化后,所有基因在下游分析时权重是一样的。是否对基因进行归一化目前尚无达成共识。尽管流行Seurat教程通常应用gene scaling,但Slingshot方法的作者在其教程中选择了不对基因进行scaling。两种选择的争议点在:所有基因不论表达高低在进行下游分析时权重一致,还是基因表达量的绝对值对下游分析也有贡献。
标准化后,数据矩阵通常进行log(x+1)转换。此转换具有三个重要作用:
(1)对数转换后的表达式值之间的差值可对应于对数转换后的倍数变化,这是衡量基因表达变化的常用方法,
(2)对数转换可减轻(但不能消除)单细胞数据的均值-方差关系(mean-variance relationship)
(3)对数转换可以减少数据的偏态分布,从而使数据近似于正态分布,更符合许多下游分析工具对数据分布的假设要求。
⏩数据分析(四):批次效应和数据整合
当将细胞分组操作时可能会带来批次效应,比如不同芯片上的细胞、不同测序通道中的细胞或在不同时间点收集的细胞都归类于不同的组。实验操作过程中细胞所经历的不同环境可能会影响转录组的测量结果或甚至影响细胞自身的转录变化。所产生的影响存在多个层面:同一实验不同的细胞组、同一实验室的不同实验或不同实验室的数据集之间。通常批次效应校正使用线性方法,而非线性方法则用于数据整合。
⏩数据分析(五)特征选择与降维
人单细胞RNA-seq数据集可包含多达25,000个基因的表达值。对于一个给定的scRNA-seq数据集其中有许多基因都不能提供有用信息,并且大多只包含零计数。即使在QC步骤中滤除了这些零计数基因后,单细胞数据集的特征空间也可能超过15,000个维度(即还会剩余15,000多基因)。为了减轻下游分析工具的计算负担、减少数据中的噪声并方便数据可视化,可以使用多种方法来对数据集进行降维。
scRNA-seq数据集降维的第一步通常是特征选择。在此步骤中,对数据集基因进行过滤仅保留对数据的变异性具有信息贡献的基因(在数据中变异大的基因)。这些基因通常被定义为高变化基因(HVG,highly variable genes)。根据任务和数据集的复杂性,通常选择1,000到5,000个HVG用于下游分析。Klein etal.的初步结果表明,下游分析对HVG的数量不太敏感。在HVG数量从200到2,400之间选择不同的数目时,评估显示PCA结果相差不大。基于此结果我们宁愿选择更多的HVG用于下游分析。
特征选择后,可以通过专用的降维算法进一步对单细胞表达矩阵进行降维。这些算法将表达式矩阵映射到低维空间中,同时以尽可能少的维数捕获数据中所有的信息。鉴于单细胞RNA测序数据固有的低维性特征,这一方法是合适的。也就是说,细胞表达图谱构成的生物形态(biological manifold)可以使用远少于基因数目的维度信息来展示。降维旨在找到这些维度。
降维有两个主要目标:可视化和信息汇总(summarization)。可视化是尝试在二维或三维空间最优地展示数据集。降维后的维度值就是数据在新的空间进行可视化如绘制散点图时的坐标值。信息汇总没有规定输出的维数;但更高的维数对表示原有数据的差异越来越不重要,可以理解为PCA中各个主成分对于原始数据差异的解释依次降低。汇总技术可通过计算数据的固有维数来将数据降维到基本组成(主)成分,从而有助于下游分析。虽然不应使用二维可视化数据来汇总数据集,但汇总方法获得的降维数据可用来可视化数据。
持续分享科研干货,感兴趣的快快点赞收藏关注吧~
#医生[超话]##论文##科研狗的日常[超话]##基金课题##肿瘤[超话]##国自然##科研[超话]##博士后##网络药理学[超话]##医生##期刊发表[超话]##期刊发表论文发表[话题]##博士##博士后##医学生##sci##sci论文##科研狗的日常[超话]# https://t.cn/A6lPCNxV
单细胞测序以单个细胞为单位,通过全基因组或转录组扩增,进行高通量测序,能够揭示单个细胞的基因结构和基因表达状态,反映细胞间的异质性,单细胞测序技术的流程主要包括:单细胞制备、单细胞分离和文库制备、测序和初级分析、数据可视化和解读4个方面。
单细胞测序的发展与基本流程:
单细胞悬液制备:
⏩组织细胞裂解
1.机械法:通过切割、切块、移液器吹打等方法机械切割和破坏组织
2.酶解法:使用胶原酶、胰蛋白酶、中性蛋白酶、弹性蛋白酶等多种酶来消化组织,裂解蛋白键
3.组合方案:在自动化系统的帮助下,机械法和酶解法可以依次或同时进行,实现更广泛的裂解
⏩富集
1.离心:通过密度梯度离心,根据细胞大小、形状或密度富集细胞
2.基于磁珠的富集:通过磁珠结合抗体的阳性/阴性筛选来富集感兴趣的细胞群(包括活细胞)
3.流式细胞荧光分选:通过荧光基团/荧光素结合抗体的阳性/阴性筛选来富集感兴趣的细胞群(包括活细胞)
4.微流体细胞分选:利用基于荧光基团/荧光素结合抗体的阳性/阴性筛选的低压微流体,来富集感兴趣的细胞群
⏩质量控制
方法:细胞计数仪、流式细胞仪;
评估指标:细胞大小、活率、是否有聚集物、浓度是否合适。
文库制备及测序:
⏩单细胞分析的扩增方法
⏩文库及测序
根据测序平台进行建库,文库构建完成后进行文库质检及测序
10X Genomics 全基因组解码系统:
⏩优势:
超高细胞通量:微流体“双十字”交叉系统为8通道系统,每个通道最高可捕获10000细胞,8通道一次可检测细胞范围为500-80000个细胞;
细胞捕获效率高:单个细胞捕获效率高达65%,可准确鉴别稀有细胞类型,利于稀有样本或小细胞量类型样本研究;
多态率低:多态率(同一个GEM包含2个及2个以上细胞)低于0.9%/1000细胞。
数据分析:
⏩数据分析(一):数据预处理
原始测序数据经过处理得到分子计数矩阵(count matrix),或者reads count(读数矩阵)。这取决于单细胞文库构建方案中是否包含唯一分子标识符(UMl,unique molecular identifiers)。
获得的reads或count矩阵的行数等于barcodes的数目,列数等于基因数目。这里使用术语barcodes而不是cell,因为分配给相同barcode的所有reads可能并不只是来源于同一细胞。
因为文库构建时每个细胞是独立的,所以每个细胞的mRNA也就特异的标记了孔特异性或液滴特异性细胞barcode。此外,许多实验方案还使用唯一分子标识符(UMI)标记捕获的RNA分子。一般在测序之前需要先扩增细胞cDNA以增加其被检测的可能性。但微量扩增更容易引入PCR偏好性。UMI使我们能够区分测到的reads是来源于mRNA分子的不同扩增拷贝还是来源于独立的mRNA分子,从而可以进行更准确的定量。
⏩数据分析(二):数据质控QC
在分析单细胞基因表达数据之前,我们必须确保所有barcode都对应于有效细胞(viable cells,有活力的细胞)。质控有3个指标:测到的转录本分子总数、测到的基因总数、来源于线粒体基因的转录本所占比例。
质控就是检查这3个指标的分布中是否存在异常峰并设置阈值去除。这些异常的barcodes可能对应于死细胞、细胞膜破损的细胞或doublets。比如,如果某个barcode对应的样品测到的分子总数低、检测到的基因数少、线粒体基因所占比例高,则表明该样品可能存在细胞膜破损导致细胞质RNA漏出,只有线粒体中的RNA保留了下来。相反,如果某个barcode对应的样品有异常高的总分子数和检测到的基因数,则有可能这个样品包含2个或以上细胞(doublets)。
⏩数据分析(三):数据标准化
计数矩阵中的每个数值代表细胞中一个mRNA分子被成功捕获、逆转录和测序。由于每个操作步骤固有的可变性,即便同一个细胞测序两次获得的计数深度也可能会有所不同。因此,当基于原始计数数据比较细胞之间的基因表达时,得到的差异可能来自于技术原因。Normalization可以通过调整计数数据(scaling count data)等解决这一问题,以获得细胞之间可比的相对基因表达丰度。
最常用的标准化方法是测序深度标准化,也称为“每百万计数”或CPM normalization。该方法来自普通转录组表达分析,使用每个细胞的测序深度作为sizefactor对计数数据进行标准化。CPM标准化假设数据集中的所有细胞最初都包含相等数量的mRNA分子,并且计数深度差异来源于技术问题。
由于单细胞数据集通常由大小和分子数不同的异质细胞群体组成,因此通常需要更复杂的标准化方法。例如,Weinreb et al对CPM算法进行了扩展,在计算size factors时排除在任何细胞中总计数大于5%的基因。这一方法屏蔽掉少数高表达基因对总体表达变化的影响。软件包Scran的pooling-based size factor方法对细胞异质性的影响处理更好。首先把细胞合并到一起避免technical dropout效应,然后基于基因表达的线性回归型估算size factor。这一方法允许细胞有少于50%的差异表达基因,并且在不同的测试评估研究中这一标准化方法都表现最好。
标准化是对细胞计数数据进行缩放处理以使其在细胞之间可比,也可以在基因层面对基因计数进行归一化(scale)以便于基因内部进行直接比较。
基因归一化是指一个基因减去其在所有样品表达的均值然后除以其在所有样品表达值的标准差。归一化后,这个基因在所有样品表达值均值为0,用单位方差形式表示其表达值。归一化后,所有基因在下游分析时权重是一样的。是否对基因进行归一化目前尚无达成共识。尽管流行Seurat教程通常应用gene scaling,但Slingshot方法的作者在其教程中选择了不对基因进行scaling。两种选择的争议点在:所有基因不论表达高低在进行下游分析时权重一致,还是基因表达量的绝对值对下游分析也有贡献。
标准化后,数据矩阵通常进行log(x+1)转换。此转换具有三个重要作用:
(1)对数转换后的表达式值之间的差值可对应于对数转换后的倍数变化,这是衡量基因表达变化的常用方法,
(2)对数转换可减轻(但不能消除)单细胞数据的均值-方差关系(mean-variance relationship)
(3)对数转换可以减少数据的偏态分布,从而使数据近似于正态分布,更符合许多下游分析工具对数据分布的假设要求。
⏩数据分析(四):批次效应和数据整合
当将细胞分组操作时可能会带来批次效应,比如不同芯片上的细胞、不同测序通道中的细胞或在不同时间点收集的细胞都归类于不同的组。实验操作过程中细胞所经历的不同环境可能会影响转录组的测量结果或甚至影响细胞自身的转录变化。所产生的影响存在多个层面:同一实验不同的细胞组、同一实验室的不同实验或不同实验室的数据集之间。通常批次效应校正使用线性方法,而非线性方法则用于数据整合。
⏩数据分析(五)特征选择与降维
人单细胞RNA-seq数据集可包含多达25,000个基因的表达值。对于一个给定的scRNA-seq数据集其中有许多基因都不能提供有用信息,并且大多只包含零计数。即使在QC步骤中滤除了这些零计数基因后,单细胞数据集的特征空间也可能超过15,000个维度(即还会剩余15,000多基因)。为了减轻下游分析工具的计算负担、减少数据中的噪声并方便数据可视化,可以使用多种方法来对数据集进行降维。
scRNA-seq数据集降维的第一步通常是特征选择。在此步骤中,对数据集基因进行过滤仅保留对数据的变异性具有信息贡献的基因(在数据中变异大的基因)。这些基因通常被定义为高变化基因(HVG,highly variable genes)。根据任务和数据集的复杂性,通常选择1,000到5,000个HVG用于下游分析。Klein etal.的初步结果表明,下游分析对HVG的数量不太敏感。在HVG数量从200到2,400之间选择不同的数目时,评估显示PCA结果相差不大。基于此结果我们宁愿选择更多的HVG用于下游分析。
特征选择后,可以通过专用的降维算法进一步对单细胞表达矩阵进行降维。这些算法将表达式矩阵映射到低维空间中,同时以尽可能少的维数捕获数据中所有的信息。鉴于单细胞RNA测序数据固有的低维性特征,这一方法是合适的。也就是说,细胞表达图谱构成的生物形态(biological manifold)可以使用远少于基因数目的维度信息来展示。降维旨在找到这些维度。
降维有两个主要目标:可视化和信息汇总(summarization)。可视化是尝试在二维或三维空间最优地展示数据集。降维后的维度值就是数据在新的空间进行可视化如绘制散点图时的坐标值。信息汇总没有规定输出的维数;但更高的维数对表示原有数据的差异越来越不重要,可以理解为PCA中各个主成分对于原始数据差异的解释依次降低。汇总技术可通过计算数据的固有维数来将数据降维到基本组成(主)成分,从而有助于下游分析。虽然不应使用二维可视化数据来汇总数据集,但汇总方法获得的降维数据可用来可视化数据。
持续分享科研干货,感兴趣的快快点赞收藏关注吧~
#医生[超话]##论文##科研狗的日常[超话]##基金课题##肿瘤[超话]##国自然##科研[超话]##博士后##网络药理学[超话]##医生##期刊发表[超话]##期刊发表论文发表[话题]##博士##博士后##医学生##sci##sci论文##科研狗的日常[超话]# https://t.cn/A6lPCNxV
✋热门推荐