一、数据预处理与组装
StringTie - 基于最优化理论的网络流算法,用于将短读段组装成转录本,支持多种从头组装策略。
- 适用场景:基因表达差异分析、基因组注释等。
Cufflinks
- 用于转录本组装与差异表达分析,包含cufflinks、cuffcompare、cuffmerge及cuffdiff等模块。
- 特点:支持Tophat比对结果组装,可检测可变剪接和样本间差异。
STAR (Spliced Transcripts Alignment to a Reference)
- 高效处理长读长序列(如10x Genomic数据),支持单端和双端测序数据。
二、差异表达分析
DESeq2
- 面向高维数据的差异表达分析工具,集成数据过滤、模型拟合及结果可视化功能。
- 特点:处理RNA-seq数据,支持多组学对比。
edgeR
- 与DESeq2类似,但优化了计算效率,适合大规模数据集分析。
limma
- 用于线性模型拟合,常与DESeq2结合使用,适合复杂实验设计。
三、可视化与功能富集
Seurat
- 单细胞转录组分析平台,提供细胞聚类、基因表达可视化及功能富集分析功能。
- 优势:整合10x Genomic数据,支持大规模样本分析。
GSEA (Gene Set Enrichment Analysis)
- 用于检测差异基因在特定生物学过程中的富集,常结合KEGG数据库使用。
Cytoscape
- 网络分析工具,可构建基因调控网络及蛋白质相互作用图谱。
四、其他实用工具
FastQC & MultiQC: 数据质量检测工具,用于原始测序数据预处理。 R语言包
学习建议
理论与实践结合:
从RNA-seq基础开始,逐步学习数据处理与分析流程。
在线资源:
利用等平台获取教程与工具支持。
案例分析:
通过Kaggle等平台参与竞赛,提升实战能力。
以上工具覆盖了转录组分析的主要环节,可根据具体需求选择组合使用。