在中,根据甲基化的所处的上下文环境,分成以下3类;
CpG
CHG
CHH
代表磷酸二酯键,指的是甲基化的C的下游是1个碱基。代表除了碱基之外的其他碱基,即中的任意一种,代表甲基化的C下游的2个碱基是和, 表示甲基化的C下游的两个碱基都是。
比对完之后,会生成1个bam 文件。使用命令可以从bam 文件中识别到甲基化的C,命令如下
bismark_methylation_extractor —comprehensive test/test_data_bismark_bt2.bam
只有1个参数,这个bam 文件是比对生成的bam文件,每个样本一个bam文件。
默认情况下,软件会自动根据两个因素生成结果文件
甲基化的C的类型就是前面提到的, , 3种类型
比对情况包括比对到四条链上, , , 4种情况所以会生成 3 X 4 = 12 个文件,对于链特异性文库来说,会生成3 X 2 = 6 个文件,这6个文件内容是类似的,都是记录了甲基化的C的染色体位置。
选项的作用就是在生成最终文件时,只考虑3种甲基化类型,将所有的比对情况进行合并,这样最终只会生成3个文件.
CpG_context_test_data_bismark_bt2.txtCHG_context_test_data_bismark_bt2.txtCHH_context_test_data_bismark_bt2.txt
以为例,内容如下:
Bismark methylation extractor version v0.19.0SRR15024317_length=86 - 1 57798691 zSRR15024319_length=86 + 2 10166600 ZSRR15024331_length=86 + 11 77736289 ZSRR15024338_length=86 + 3 197272186 Z
共5列,第一列为比对上的序列ID,第二列为基因组的正负链信息,第三列为染色体编号,第四列染色体上的位置,第5列为甲基化的C的状态。
不同字母表示不同的甲基化C:
X 代表CHG中甲基化的Cx 代笔CHG中非甲基化的CH 代表CHH中甲基化的Ch 代表CHH中非甲基化的CZ 代表CpG中甲基化的Cz 代表CpG中非甲基化的CU 代表其他情况的甲基化C(CN或者CHN)u 代表其他情况的非甲基化C (CN或者CHN)
对于, 采用字母的大小写来表征甲基化状态;对于, 采用字母的大小写来表征甲基化状态;对于, 采用字母 的大小写来表征甲基化状态。
上面的文件是methylation calling 最直接的证据,但是对于甲基化水平的定量来说,缺少了相关信息。运行时,除了生成上述文件之外,还会有下列3个文件
test_data_bismark_bt2_splitting_report.txttest_data_bismark_bt2.M-bias.txttest_data_bismark_bt2.M-bias_R1.png
记录了该样本甲基化的汇总信息
Final Cytosine Methylation ReportTotal number of C’s analysed: 40348Total methylated C’s in CpG context: 1365Total methylated C’s in CHG context: 21Total methylated C’s in CHH context: 103Total C to T conversions in CpG context: 678Total C to T conversions in CHG context: 10076Total C to T conversions in CHH context: 28105C methylated in CpG context: 66.8%C methylated in CHG context: 0.2%C methylated in CHH context: 0.4%
定义了每一个甲基化位点的详细信息,就是我们定量常用的beta 值部分文件内容如下
CpG contextposition count methylated count unmethylated % methylation coverage1 42 13 76.36 552 31 9 77.50 40
双坐标轴图,左侧的纵轴代表甲基化比例,右侧的纵轴代表甲基化的数目,横坐标代表测序读长。