Cufflinks
Cufflinks 是 RNA-Seq 数据分析的经典工具之一,用于从比对后的 BAM/SAM 文件中进行 转录本组装 和 基因表达定量。Cufflinks 可以组装新的转录本,也可以通过 GTF 注释文件指导转录本的组装和定量,输出的结果通常用于后续的差异表达分析或基因表达量的研究。Cufflinks 还支持生成 FPKM 值。
基本使用
表达定量
使用 Cufflinks 对 BAM 文件进行转录本组装和表达定量。
-
-p
使用的核心数 -
-G
根据参考转录本注释进行组装和定量分析 -
-o
指定结果输出目录,默认为./
Warning
在使用 -G
指定GTF 文件时,Cufflinks 实际上并不是重新组装转录本,而是根据 GTF 文件的注释直接读取转录本信息并进行定量分析
输出文件
Cufflinks 运行后,会生成一系列输出文件,其中主要包括
transcripts.gtf
:转录本组装结果文件(GTF 格式),包含组装的所有转录本。
isoforms.fpkm_tracking
:转录本(isoform)的 FPKM 表达量估计。
genes.fpkm_tracking
:基因的 FPKM 表达量估计。
skipped.gtf
:未能成功组装的转录本信息。
参数解析
基本选项:
-
-o/--output-dir
:指定输出文件的目录,默认是当前目录 (./
)。 -
-p/--num-threads
:设置使用的线程数量,默认是1
。 -
--seed
:随机数生成器的种子,默认是0
。 -
-G/--GTF
:根据参考转录本注释进行定量分析。 -
-g/--GTF-guide
:使用参考转录本注释引导组装。 -
-M/--mask-file
:忽略此文件中的转录本区域。 -
-b/--frag-bias-correct
:使用片段偏差校正,需提供参考fasta
文件。 -
-u/--multi-read-correct
:使用多重比对拯救方法(提高准确性),默认FALSE
。 -
--library-type
:指定输入数据的文库类型(见下方支持的文库类型)。-
ff-firststrand
:前向-前向配对,第一链特异性文库。 -
ff-secondstrand
:前向-前向配对,第二链特异性文库。 -
ff-unstranded
:前向-前向配对,非链特异性文库。 -
fr-firststrand
:前向-反向配对,第一链特异性文库。 -
fr-secondstrand
:前向-反向配对,第二链特异性文库。 -
fr-unstranded
:前向-反向配对,非链特异性文库(默认)。
-
丰度估算高级选项:
-m/--frag-len-mean
:设定片段长度均值(非配对读长),默认200
。-s/--frag-len-std-dev
:设定片段长度标准差,默认80
。--max-mle-iterations
:最大MLE计算的迭代次数,默认5000
。--compatible-hits-norm
:仅使用与参考RNA兼容的比对进行归一化,默认FALSE
。--total-hits-norm
:使用所有比对进行归一化,默认TRUE
。
组装高级选项:
-L/--label
:为组装的转录本设置ID前缀,默认CUFF
。-F/--min-isoform-fraction
:抑制低于此丰度水平的转录本,默认0.10
。-I/--max-intron-length
:忽略长度超过该值的内含子,默认300000
。--max-bundle-length
:设定基因组包的最大长度,默认3500000
。--max-bundle-frags
:设定每个基因组包中最大片段数,默认500000
。
参考注释引导组装选项:
--no-faux-reads
:禁用假设reads进行组装,默认FALSE
。--3-overhang-tolerance
:合并到参考转录本时,允许的3'端overhang大小,默认600
。
程序行为选项:
-v/--verbose
:启用详细日志,默认FALSE
。-q/--quiet
:启用安静模式,禁用进度条输出,默认FALSE
。--no-update-check
:禁用自动更新检查,默认FALSE
。