基因表达定量

基因表达定量（Gene Expression Quantification）是 RNA-Seq 数据分析中的重要步骤，用于测量每个基因在不同条件下的表达水平。通常，基因表达定量涉及将比对到参考基因组或转录组的读段数量化，以获得每个基因或转录本的表达量。基因表达定量主要分为两种类型。

1. 基于BAM比对文件

工具：HTSeq、featureCounts、RSEM（基于 BAM 文件的模式）。

流程优点缺点

首先，使用比对工具（如 HISAT2、STAR等）将 FASTQ 文件比对到参考基因组或转录组上，生成 BAM 文件。
然后使用工具（如 HTSeq、featureCounts）基于 BAM 文件和基因注释（GTF/GFF 文件）对每个基因或外显子进行计数，得到原始读段计数（Raw Counts）。

工具：Salmon、Kallisto。

流程优点缺点

直接从 FASTQ 文件中进行伪比对或伪定量，不生成 BAM 文件。这些工具使用特定算法（如 pseudo-alignment）来跳过比对步骤，直接量化每个基因或转录本的表达水平。

如果需要完整的比对结果，并且可能涉及变异检测、基因融合分析等高级分析，建议使用基于 BAM 文件的定量方法，如使用 HTSeq 或 featureCounts。

如果只是需要快速估计基因或转录本的表达水平，并且不需要比对结果，推荐使用基于FASTQ 文件的直接定量方法，如 Salmon 或 Kallisto。

定量方法类型	常用工具	优点	缺点	适用场景
基于 BAM 文件的定量方法	HTSeq, featureCounts, RSEM	1- 比对结果可视化更直观 2- 结果更精准	- 比对步骤耗时长 - 占用大量存储和计算资源	适用于需要比对结果、精确读段位置的信息
基于 FASTQ 文件的直接定量方法	Salmon, Kallisto	1- 速度快 2- 占用存储空间少	- 无法生成比对结果 - 无法检测复杂变异	适合大规模 RNA-Seq 数据，特别是转录本水平定量分析