ATAC-seq分析干货
努力呗还能咋样呐
编辑于 2020年08月07日 06:27
收录于文集
共26篇

ATAC-seq分析干货

ATAC-seq技术由于其要求细胞量少,实验简单、快速、高效且应用范围广,是近年来转录调控、表观遗传修饰研究的一项重要的技术手段。近两年应用ATAC-seq方法发表的文章数量也是飞速上升,可见ATAC-seq的火爆程度。现在,如果你还不了解ATAC,还不抓紧学起来!今天我们先来学习一下ATAC-seq相关的背景介绍。

2014年至2019年ATAC-seq技术相关文章统计

背景介绍

01.染色质可及性介绍

在介绍ATAC-seq之前,不得不提的就是染色质可及性的概念。大家知道,真核生物的DNA会与组蛋白结合形成核小体,核小体进一步压缩折叠形成具有高级结构的染色体,染色体的高级结构在细胞周期的不同的时期压缩折叠程度不同,间期比较松散,此时的状态被称为染色质,用于和中期高度压缩的染色体进行区分。

研究者发现DNA内切酶可以对染色质进行切割,这些切割位点称为DNA超敏感位点。DNA超敏感位点位于没有组蛋白包裹的DNA片段上,这些位点的分布往往具有一定的规律性——切割后的DNA片段都在100-200bp左右。这些可以被切割下来的裸露的100-200bp的DNA片段称为开放染色质。后期进一步的研究发现,开放染色质通常是转录因子、增强子、绝缘子或者其他调控蛋白结合的片段,结合的过程仿佛是触发了细胞内的开关,可以影响细胞内基因复制以及调控基因的转录活性。DNA的这种被结合的特性称为染色质的可及性(chromatin accessibility)。

染色质的可及性是近些年的研究热点。由于染色质的开放程度是动态变化的,这种变化是影响基因表达调控的关键决定因素,在细胞分化、发育以及各类疾病的发生发展研究中具有重要的作用。

02.染色质可及性技术

目前研究染色质可及性的方法总结主要有以下几种技术:MNase-seq、DNase-seq、FAIRE-seq、NOMe-seq以及ChIP-seq和ATAC-seq技术。

  • MNase-seq[1]是使用内切核糖酶--微球菌核酸酶(micrococcal nuclease, MNase)处理染色质,由于MNase同时具备核酸外切酶和内切酶活性,所以在对DNA进行消化时,会将裸露的DNA全部切割掉,直到遇到核小体或DNA结合蛋白等阻遏物保护,因此MNase-seq技术是将含有核小体包裹的区域切割下来进行测序,然后通过反向比较获得开放染色质区域。

  • DNase-seq[2]与MNase-seq技术互补,利用脱氧核糖核酸酶(DNaseI)识别DNaseI敏感位点,将裸露的DNA片段切割下来进行测序。

  • FAIRE-seq[3]技术是利用甲醛将染色质中裸露的DNA进行固定,随后进行超声波打断,再利用传统的DNA提取方法——酚氯仿抽提,来分离打断的DNA,从而进行高通量测序。

  • NOMe-seq[4]技术是通过人工甲基化修饰的方法进行核小体定位。使用GpC甲基转移酶处理固定的染色质,使未被核小体以及其他结合蛋白保护的GpC二核苷发生甲基化,由于基因组中含有大量的GpC,通过酶的处理可对核小体足迹进行高分辨的定位。

  • ChIP-seq[5]技术是通过染色质免疫共沉淀及时特异性地富集目的蛋白结合的DNA片段进行高通量测序,常用于特定转录因子或组蛋白特异性修饰位点的研究。

  • ATAC-seq[6]技术通过转座酶Tn5容易结合在开放染色质(未经蛋白或核小体保护的DNA部位)的特性,在整个基因组范围内对Tn5酶捕获到的DNA片段进行高通量测序。

  • 染色质可及性研究技术概览

ATAC-seq技术介绍

1.技术原理

ATAC-seq(Assay for Transposase-Accessible Chromatin with highthroughput sequencing),利用超活性的Tn5转座酶容易结合在开放染色质的特性,通过Tn5酶切割基因组,在对切割下来的序列形成的转座酶复合物上,连接测序的barcode,构建成测序文库,并对测序文库进行测序,获得结合区域相关信息。

ATAC反应原理示2.优势

  • 建库简单快捷,耗时短,重复性好

  • 需要的细胞数目较少(一般500-50000个)

  • 全基因组范围内检测

  • 同时检测开放的DNA区域和被核小体占据的区域

3.ATAC-seq实验的几个建议

良好的实验设计以及操作是ATAC-seq成功的关键,关于实验策略有如下建议[8]:

  • 生物学重复:最好有两个生物学重复,而且2个重复足够了

  • 对照:最好使用对照,可以用不使用转座酶Tn5处理的样本做对照

  • PCR扩增:扩增次数尽量少,以减少PCR引入dup

  • 数据量:测序数据量一般跟基因组大小有关,对于人类样本,推荐50M/样本。一般来说测序数据越多,比对结果会越准确,尤其对于复杂基因组,如:高重复基因组,可以提升比对准确性

  • 测序策略:推荐使用paired-end,原因有以下几个方面:a.能够更准确的鉴定转座酶的插入位置,确定插入片段长度。单端测序虽然可以通过计算模型去推断片段长度,但是没有那么准确。b.双端测序对于比对软件,更容易更准确的鉴定dup的reads,提高分析结果的准确性。

分析步骤

1.原始下机数据的过滤质控

背景中介绍到,用来结合转录因子的染色质开放区域一般为100-200bp的小片段。随着测序技术的发展,我们ATAC-seq进行的高通量测序的策略一般是PE150(之前大部分为SE50),因此双端测序能测的插入片段大约在350bp左右。在这种情况下,我们实际测出的reads会把Tn5酶捕获到的片段测通,为了最大程度的利用测序数据,我们在数据清洗过程中一般会用Trim的形式进行过滤,即将reads中判断为接头的部分截取掉。

  • 过滤的主要目的:1.去除接头污染;2.去除低质量reads

  • 使用Trimmomatic软件进行过滤

过滤完成,得到clean数据后,就可以进行数据的比对、质控,以及各种可视化展示和peak calling分析了。后续分析内容,我们下期继续进行分享,感兴趣的小伙伴,赶快关注我们吧~

分析步骤

前期我们通过Trimmomatic软件对原始下机数据进行了数据清洗,主要包括:

  • 去除下机数据中的接头污染

  • 去除低质量的reads

从而获得clean reads数据。那接下来就可以将clean数据跟参考基因组进行比对,进行后续的可视化以及peak calling相关分析了。

1.数据比对(Bowtie2,picard-tools)

1.1 比对

1.2 过滤(去dup,去线粒体,低质量,未比对上的序列) 比对完之后,需要对比对得到的bam文件进行过滤处理。主要考虑过滤以下几个方面:

  • 去除PCR duplicate reads,因为影响后续call peak

  • 线粒体DNA和叶绿体DNA序列。由于线粒体和叶绿体DNA是裸露的,可以被Tn5酶识别切割,因此数据中会有线粒体和叶绿体的污染,比对完之后需要去掉(如果是植物,还需要去掉叶绿体)

  • 低质量以及未比对上的reads

1.3 插入片段长度统计(picard-tools),同时生成call peak的bed文件) 插入片段长度是重要的评估实验好坏的指标,统计出的插入片段长度应该符合实验预期的长度。可以用picard-tools工具的CollectInsertSizeMetrics功能进行统计。

为了更方便的进行peak calling,可以根据插入片段起始终止位置整理成bed文件作为输入(需要注意的是bed文件的染色体起始位置是0起始的,第一个碱基的位置标记为0,而终止位置是从1开始的)。

根据ATAC-seq的实验原理,call peak 时,可以进行Tn5边界调整,将bed文件上下游各移动75bp,从而直接进行calling,而不用再进行reads延伸[1],具体call peak操作可以往下看。

2.比对结果可视化(deeptools,samtools)

得到比对结果之后,我们就可以图形化的展示peak的富集情况,peak reads在染色体的分布情况等等。另外,通常bam文件是比较大的,所以为了更加方便的使用IGV可视化的展示reads情况,通常会把bam文件转为bigwig文件形式。 2.1 bam转bigwig文件(deeptools,bamCoverage) bam的格式转换可以使用deeptools的bamCoverage工具,具体使用代码参考如下:

2.2 覆盖度(samtools) 使用samtools的mpileup工具统计base\reads在各个染色体的覆盖度情况,并进行可视化展示。

3.TSS、TES区域可视化

计算TSS或者TES附近的信号强度,可以使用deeptools[2]的computeMatrix工具进行。computeMatrix具有两个模式:scale-region和reference-point。

  • scale-region用来计算某一个区域内信号分布,比如如下代码设置的TSS和TES区域以及上下游各2K的区域内的信号分布计算;

  • reference-point可以计算相对于某一个点的信号分布情况。

computeMatrix工具计算信号分布情况结果,可以使用plotProfile以折线图的方式对覆盖区域信号分布进行可视化,也可以使用plotHeatmap以热图的方式对覆盖区域信号分布进行可视化。

TSS\TES区域可视化结果示例图

4.链互相关性SCC分析(phantompeakqualtools)

SCC(Strand Cross Correlation analysis)是可用于评估ATAC/Chip实验质量好坏的一个重要指标(转录因子富集),其原理基于peak的reads富集分布规律[3]。

第一:peak位点附近的正负链上reads分布相同;

第二:reads分布的中心点和peak的中心点存在偏移,如果将reads的位置移动一定的距离之后,正负链的中心重合,上下成对称分布。

用泊松相关系数来分析正负链测序深度的相关性,当正负链的中心点重合时,相关系数最高,可以有效衡量偏移过程。由此,可以得到偏移距离和相关系数之间的对应关系。因此,一方面,计算SCC有助于了解正负链间的相关性系数,另一方面可以检测Reads富集的程度来富集实验是否成功。

Chip-seq数据检测蛋白结合位点

典型的链交叉相关图会产生两个峰:

  • 一个富集峰与主要的插入片段长度相关(高相关性),为peak峰。

  • 另一个与测序read长度相关,被称为"phantom "peak。

一个高质量的转录因子富集数据,peak对应的峰最高,phantom peak对应的峰较矮, 如果两种峰都能够观测到,而phantom peak最高,则说明抗体还是富集到了部分序列,但是背景噪声太高了,不利于后续分析;而如果观测不到 peak峰,则说明富集实验是失败的。

Examples of Cross-Correlation Plots

为了更精准的进行判断,研究者提出两个量化指标:

  • Normalized strand cross-correlation coefficent (NSC)是最大交叉相关值除以背景交叉相关的比率,NSC值越大表明富集效果越好,NSC值低于1.1,表明较弱的富集,小于1表示无富集。NSC值稍微低于1.05,表明有较低的信噪比或很少的峰;

  • Relative strand cross-correlation coefficient (RSC),片段长度相关值减去背景相关值除以phantom-peak相关值减去背景相关值。RSC的最小值可能是0,表示无信号;富集好的实验RSC值大于1;低于1表示质量低。

5.Peak Calling

Model-based Analysis of ChIP-Seq (MACS2) 是用来检测DNA片段富集的软件,尽管当时是针对Chip-seq开发的,但是其非常好的适用于ATAC-seq。现在ATAC-seq主流的call peak软件依然是MACS2。

蛋白或转录因子结合位点附近会有reads富集,MACS2根据一定的统计模型,扫描全基因组,构建双峰模型,结合对照(background)来检测富集片段中真正的结合位点。MACS2可以鉴定Chip-seq中两种主要类型的富集模式:

  • 组蛋白修饰的broad peaks或者broad domains

  • 转录因子结合的narrow peaks。

而对于ATAC-seq而言,捕获的是染色质开放区域,可类似于Chip-seq中转录因子的检测模式。

MACS2 Peak Calling原理

由于ATAC-seq检测固定的染色质开放区域,所以MACS2检测ATAC peak时,可以使用--nomode1参数,不需要MACS去构建模型,同时需要设置--extsize参数和--shift参数。

--extsize参数和--shift参数是非常重要可以明显左右检测结果的参数,可以根据实验方法以及目的,设置相应的值。具体的脚本可以参考C. elegans的ATAC-seq分析[1]或者文档ATACSeq Pipeline,相关的参数和结果文件说明可以参考MACS2作者的github,MACS2。

考虑到ATAC-seq是通过Tn5酶结合的染色质开放区域,传统的使用MACS2软件(使用--extsize,--shift参数)检测ATAC peak的方式可能并不是最优的,比对上的成对的reads可能会被丢弃,从而忽略很多有效的序列信息。基于此,Harvard John M. Gaspar团队[5]推荐使用Genrich(https://github.com/jsh58/Genrich)软件,Genrich有特定的针对ATAC的分析模式,以Tn5转座酶切割位点为中心进行拓展,而不是通过拓展reads来检测peak。Genrich对线粒体reads、PCR dup reads、多重比对reads、生物学重复都有较好的处理,感兴趣的可以尝试使用此软件分析。

6.FRiP的统计

检峰之后,可以对检测到的peak数进行基本的个数、长度等统计。FRiP(Fraction of reads in peaks)[6],peaks中的reads与总reads的比例,即文库中结合位点片段占背景reads的比例,可理解为“信噪比”,也是样本富集效果的评价指标,可一定程度上反应富集效果。

通常,一个典型质量好的TF富集FRiP值约5%或者更高,大部分(787 of 1052)ENCODE数据集中FRiP值在1%以上,但低于此阈值的并不能说明富集实验是失败的,如ZNF274以及人类RNA聚合酶III有非常少的结合位点,所以具体需要综合实验以及研究的对象结合FRiP进行评估。

经过以上分析后,ATAC-seq分析的主要结果就已经有了,后续可以基于分析得到的peak结合自己的实验课题进行各种可视化展示、peak注释、差异分析、功能富集以及Motif分析等等,筛选出跟课题相关的结合位点。现在,感兴趣的小伙伴就可以上手啦~