博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
基因组拼接中常见的名词解释
阅读量:5371 次
发布时间:2019-06-15

本文共 1216 字,大约阅读时间需要 4 分钟。

Read:高通量平台产生的序列就称为reads。

Contig:拼接软件基于reads之间的overlap区,拼接获得的序列称为Contig(重叠群)。

Scaffold:基因组de novo, 通过reads拼接获得Contigs后,往往还需要构建454 Paired-end库或Illumina Mate-pair库,以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序列。基于这些序列,可以确定一些Contig之间的顺序关 系,这些先后顺序已知的Contigs组成Scaffold。

Contig :Reads 拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加,能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行 排序,如获得Contig 1,Contig 2,Contig 3...………Contig 25。将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig 。举例:Contig 1+Contig 2+ Contig 3 +Contig 4=Contig总长度*1/2时,Contig 4的长度即为Contig 。Contig 可以作为的结果好坏的一个判断标准。

Scaffold :Scaffold 与Contig 的 定义类似。Contigs拼接组装获得一些不同长度的Scaffolds。将所有的Scaffold长度相加,能获得一个Scaffold总长度。然后将 所有的Scaffolds按照从长到短进行排序,如获得Scaffold 1,Scaffold 2,Scaffold 3...………Scaffold 25。将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上的Scaffold长度即为 Scaffold 。举例:Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold总长度*1/2时,Scaffold 5的长度即为Scaffold 。Scaffold 可以作为的结果好坏的一个判断标准。

深度和覆盖度

深度是指得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M,深度为10X,那么获得的总数据量为20M。

 覆盖度是指获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在,最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为Gap。例如一个细菌基因组,覆盖度是98%,那么还有2%的序列区域是没有通过获得的。

 

转载自:http://www.majorbio.com/Tech/Htseq/403

 

转载于:https://www.cnblogs.com/pennyy/p/4388437.html

你可能感兴趣的文章
Android按钮单击事件处理的几种方法(Android学习笔记)
查看>>
常见的压缩命令
查看>>
vs快捷键
查看>>
repeater里面绑定repeter
查看>>
C# 中DllImport的用法
查看>>
hdoj 1028 Ignatius and the Princess III(区间dp)
查看>>
鼠标穿透(flex实现)
查看>>
Ceph 知识摘录(块存储操作)
查看>>
170325 第六章应用层 域名系统 DNS
查看>>
HTML5存储
查看>>
区块链3.0:拥抱EOS
查看>>
Longest Ordered Subsequence
查看>>
Jquery实现的几款漂亮的时间轴
查看>>
数据结构之停车场
查看>>
【Flask】Sqlalchemy join
查看>>
天平称重【三进制巧解】
查看>>
promise 封装 axios
查看>>
Java虚拟机12:虚拟机性能监控与故障处理工具
查看>>
struts 2 404问题解决
查看>>
对象数组
查看>>