浅谈测序

基因组组装是指使用测序方法将待测物种的基因组生成序列片段(即read),并根据reads 之间的重叠区域对片段进行拼接,先拼接成较长的连续序列(contig),再将contigs 拼接成更长的允许包含空白序列(gap)的scaffolds,通过消除scaffolds 的错误和gaps,将这些scaffolds 定位到染色体上,从而得到高质量的全基因组序列。

自基因组测序以来的组装里程碑

第三代测序技术又称为单分子测序技术,主要是指pacific biosciences公司推出的single molecular real time(SMRT)测序技术(通过荧光辨别)和Oxford nanopore technologies公司推出的纳米孔测序技术(通过电流辨别)。测序时,DNA不需要PCR扩增过程,即可实现对每一条DNA分子的单独测序。

Pacbio测序平台下SMRT测序技术的两种模式:

Standard sequencing for continuous long reads(CLR)超长度长测序:存在随即错误;

Circular consensus sequencing(CCS)环形比对测序:可自动纠错,又被称为HIFI。

Hi-C(High-throughput chromosome conformation capture),高通量染色体构象捕获。

利用甲醛对样本进行交联,质检合格后使用限制性内切酶(如MboI等)进行酶切,酶切片段经生物素标记、平末端连接、DNA纯化提取,超声打断后钓取含有生物素的片段,进行建库测序。随后,对原始下机数据进行质控,并将质控截取后的Clean reads与参考基因组比对,获得用于互作分析的Valid reads。

常用的Hi-C数据处理软件是HiC-Pro,该软件采用两步比对策略,有效提高了数据的利用率的同时,还提供了一系列的质控标准,对文库质量进行评估。

目前,用于Hi-C辅助基因组组装的软件有LACHESIS、SALSA2、3D-DNA、ALLHiC等,这些软件在基因组组装方面各有优劣(各种方法具体算法参考Hi-C辅助组装知多少,硬核知识点来了~ - 商家动态 - 资讯 - 生物在线 (bioon.com.cn)

参考:

王通.纳米孔测序数据分析手册.

Giani, A. M., Gallo, G. R., Gianfranceschi, L., & Formenti, G. (2020). Long walk to genomics: History and current approaches to genome sequencing and assembly. Computational and structural biotechnology journal, 18, 9-19.

https://blog.csdn.net/u010608296/article/details/90110770