测序常用名词的解释整理
高通量测序技术(High-throughputsequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变,一次对几十万到几百万条核酸分子进行序列测定,因此在有些文献中称其为下一代测序技术(nextgenerationsequencing,NGS)足见其划时代的改变,同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能,所以又被称为深度测序(Deepsequencing)。什么是Sanger法测序(一代测序)
Sanger法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。直到掺入一种链终止核苷酸为止。每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止。终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。
什么是基因组重测序(GenomeRe-sequencing)
全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。随着基因组测序成本的不断降低,人类疾病的致病突变研究由外显子区域扩大到全基因组范围。通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序,实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点,以及结构变异等,具有重大的科研和产业价值。
什么是denovo测序
denovo测序也称为从头测序:其不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。获得一个物种的全基因组序列是加快对此物种了解的重要捷径。随着新一代测序技术的飞速发展,基因组测序所需的成本和时间较传统技术都大大降低,大规模基因组测序渐入佳境,基因组学研究也迎来新的发展契机和革命性突破。利用新一代高通量、高效率测序技术以及强大的生物信息分析能力,可以高效、低成本地测定并分析所有生物的基因组序列。
测序名词关系图
什么是fragments
fragments就是打成的片段,而测序测的就是这些fragments,测出来的结果就是reads,又可以分为单端侧和双端侧,单端测序的话,只是从fragments的一端测序,测多长read就多长,双端测序就是从一个fragments的两端测,就会得出两个reads
什么是Reads
高通量测序平台产生的序列就称为reads。
(测序读到的碱基序列片段,测序的最小单位;)
什么是Contig
拼接软件基于reads之间的overlap区,拼接获得的序列称为Contig(重叠群)。(由reads通过对overlap区域拼接组装成的没有gap的序列段;)
什么是ContigN50
Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加,能获得一个Contig总长度。然后将所有的'Contigs按照从长到短进行排序,如获得Contig1,Contig2,Contig3...???Contig25。将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为ContigN50。举例:Contig1+Contig2+Contig3+Contig4=Contig
总长度*1/2时,Contig4的长度即为ContigN50。ContigN50可以作为基因组拼接的结果好坏的一个判断标准。
什么是Scaffold
基因组denovo测序(没有参考基因组的测序,需要研究人员从头拼接得到的序列),通过reads拼接获得Contigs后,往往还需要构建454Paired-end库或IlluminaMate-pair库,以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序列。基于这些序列,可以确定一些Contig之间的顺序关系,这些先后顺序已知的Contigs组成Scaffold。
(通过pairends信息确定出的contig排列,中间有gap)
什么是ScaffoldN50
ScaffoldN50与ContigN50的定义类似。Contigs拼接组装获得一些不同长度的Scaffolds。将所有的Scaffold长度相加,能获得一个Scaffold总长度。然后将所有的Scaffolds按照从长到短进行排序,如获得Scaffold1,Scaffold2,Scaffold3...???Scaffold25。将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上的Scaffold长度即为ScaffoldN50。举例:Scaffold1+Scaffold2+Scaffold3+Scaffold4+Scaffold5=Scaffold总长度*1/2时,Scaffold5的长度即为ScaffoldN50。ScaffoldN50可以作为基因组拼接的结果好坏的一个判断标准。
什么是测序深度和覆盖度
测序深度:是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M,测序深度为10X,那么获得的总数据量为20M。
覆盖度:是指测序获得的序列占整个基因组的比例。
Gap:由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为。例如一个细菌基因组测序,覆盖度是98%,那么还有2%的序列区域是没有通过测序获得的。
什么是RPKM、FPKM
RPKM,ReadsPerKilobaseofexonmodelperMillionmappedreads,isdefinedinthisway[Mortazavietal.,2008]:
每1百万个map上的reads中map到外显子的每1K个碱基上的reads个数。假如有1百万个reads映射到了人的基因组上,那么具体到每个外显子呢,有多少映射上了呢,而外显子的长度不一,那么每1K个碱基上又有多少reads映射上了呢,这大概就是这个RPKM的直观解释。
如果对应特定基因的话,那么就是每1000000mapped到该基因上的reads中每kb有多少是mapped到该基因上的exon的read
测序小知识之名词解释
1、Read depth Read深度:一个样本测序得到的reads数;容易和基因组测序的覆盖度 (多少基因组区域被测到了)和测序深度混淆 (单个核苷酸被测到的次数或所有核苷酸被测到的平均深度)。
2、Short-read 短读长:测序得到的长度最大是500 bp的reads,常见的测序片段长度为100-300 bp;本文中的短读长测序片段代表测到的mRNA片段和降解了的mRNA。
3、Long-read 长读长:测序得到的超过1000 bp的reads,本文中代表全长或近乎全长的mRNA。
4、Direct RNA sequencing (dRNA-seq): 直接测序RNA而非cDNA的测序技术,通常用于测序全长或近全长的mRNA 。
5、Multi-mapped reads 多重比对的reads:从转录组同源区域测序得到的reads,不能精确确认其转录本或基因组的来源。
6、Synthetic long reads 合成long reads:通过组装多个短读长得到长读长的方法。
7、唯一分子标识符(UMIs):在扩增前,构建RNA-seq文库的时候加入的短序列或barcodes,理想情况下每条转录本结合一个唯一的标识符,含有此标识符的reads都来源于此转录本,定量时只计算一次。可以用来降低RNA-seq的定量偏好性,在RNA起始量低的单细胞实验中尤为适用。
8、Read length 读长:单个测序reads的长度,short-read RNA测序得到的长度通常是50-150 bp。
9、Sensitivity 敏感性:样本中多大比例的转录本会被测到,敏感性越高,这一比例越高。它受样本处理、文库制备、测序和计算偏好性的影响。
10、Specificity 特异性:度量差异表达转录本被正确鉴定出的比例的方法,它受样本处理,文库制备,测序和计算偏好性的影响。
11、Duplication rates 重复Reads比率:比对到转录组相同位置的的测序reads的比例。在RNA-seq文库中,一些转录本可能有高的重复率,因为它们在样本中表达水平高。高表达的基因的重复率很高,而低表达基因的或许有着最小的重复率。由此RNA-seq面临着一个挑战,该技术中大部分重复可能是高表达转录本带来的真实信号,而另一些则是由于扩增和测序偏好性造成的。
12、Single-end sequencing 单端测序 (SE):只测序cDNA片段的一端,因其费用低,常用于只关注差异基因表达的项目中。(NGS基础 - 高通量测序原理)
13、Paired-end sequencing 双端测序 (PE):cDNA片段两端分别测序,可以测序到cDNA的更多碱基,更好的识别剪接位点,常于差异基因表达分析项目。
14、生物学重复:对生物来源不同的样本的多次检测,比如来自三个个体的组织,用于捕获生物个体自身的变化;这个变化要么是待研究的对象,要么是噪音。相较之下,技术重复是对同样的样本做重复的操作—比如,对一个组织做三次处理。
15、Expression matrix 表达矩阵:差异表达RNA-seq项目的核心数据文件。每一行代表一个RNA,比如基因或者转录本。每一列是一个测序的样本。矩阵中的数值是每个RNA的reads数。这些可能是对转录异构体的计数估计,并通常在后续的分析前先进行标准化转化。
16、Spike-in control 内参:按特定浓度添加到样品中的外源核酸库。它们通常是预先合成的不同浓度的RNA,用于监测反应效率和技术方法的偏差和假阴性结果。
17、Spatialomics 空间转录组学:能保留给定样本(通常是组织切片)中每个转录本的空间信息的转录组分析方法。
18、Nascent RNA 新生RNA:刚刚转录出来的RNA,与已经加工并运输到细胞质的RNA相对应。
19、Translatome 翻译组:细胞、组织或生物体中正在翻译成蛋白质的mRNA集合。
20、Structurome 结构组:细胞、组织或生物体中RNA的二级和三级结构集合。
21、Interactome 互作组:细胞、组织和生物体中分子相互作用的集合,包括有RNA-RNA或者RNA-蛋白质的相互作用。
22、Differential gene expression (DGE) 差异基因:两个实验组中表达显著变化的基因
一代测序和二代测序的区别是什么?
一、含义不同:第一代测序:指双脱氧末端终止法,扩增后通过毛细管电泳读取序列,每次获取数据量少。第二代测序:为高通量测序,采用微珠或高密度芯片边合成边测序,代表有454,solexa,solid,高通量,可一次获得数G数据,相对与第三代,都仍然需要扩增的方法放大信号,扩增后再检测。二、作用不同:Sanger法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。直到掺入一种链终止核苷酸为止。普通的二代测序,全基因组或外显子组测序是将DNA分成小片段,然后对各个片段多次读取(一般是三十次)。然而,如果突变只发生在15-20%的细胞中,三十次读取还不足以可靠地捕捉到它们,尤其是当突变只影响一个基因拷贝时。测序程序在4只试管中加入适当的引物、模板、4种dNTP(包括放射性标记的dNTP,例如32PdNTP和DNA聚合酶(如以RNA为模板,则用反转录酶),再在上述4只管中分别加入一种一定浓度的ddNTP(双脱氧核苷酸)。与单链模板(如以双链作模板,要作变性处理)结合的引物,在DNA聚合酶作用下从5’端向3’端进行延伸反应,32P随着引物延长掺入到新合成链中。当ddNTP掺入时,由于它在3’位置没有羟基,故不与下一个dNTP结合,从而使链延伸终止。ddNTP在不同位置掺入,因而产生一系列不同长度的新的DNA链。以上内容参考:百度百科-双脱氧链终止法
二代测序及其应用
二代测序为高通量测序,采用微珠或高密度芯片边合成边测序,代表有454,solexa,solid,高通量,可一次获得数G数据,相对与第三代,都仍然需要扩增的方法放大信号,扩增后再检测。二代测序应用如下:1、Illumina 原理:桥式PCR+4色荧光可逆终止+激光扫描成像。2、Roche 454:油包水PCR + 4种dNTP车轮大战 + 检测焦磷酸水解发光。3、Ion Torrent 原理:油包水PCR + 4种dNTP车轮大战 + 微电极PH检测。二代测序相比一代测序大幅降低了成本,保持了较高准确性,并且大幅降低了测序时间,将一个人类基因组从3年降为1周以内,但在序列读长方面比起第一代测序技术则要短很多,这也给三代测序提供了发展空间。想要了解更多有关二代测序的相关信息,推荐咨询海普洛斯。海普洛斯的生物信息分析团队由20余名具有多年生物信息经验的成员组成,他们之前是自于华大基因,NVIDIA等国内外大型企业的高级工程师,具有生物,数学,计算机,统计等不同的专业背景,经过技术融合,共同为建立中国癌症基因组大数据进行服务。海普洛斯的生物信息团队开发了处理基因测序数据分析流程管理,基因融合检测,全自动化基因测序数据预处理,测序仪数据技控,变异信息统计检验,测序错误估计和去除,测序仪气泡效应分析和去除,单分子编码测序分析等等一系列的软件和算法。【● 没病有必要做基因检测吗?过来人有话说......】