生物信息学(英语:bioinformatics)利用应用数学、信息学、统计学和计算机科学的方法研究生物学的问题。--维基百科
本仓库fork
自https://github.com/danielecook/Awesome-Bioinformatics,为其汉化版,同时加上一些笔者在科研/工作中比较好用的生物信息学工具/数据库等。共同学习,共同进步。Help you,Help us。
生物信息学软件,资源和工具库的精选列表。 大多数为命令行,免费或开源工具。 欢迎提交pull request~
软件包套件收录用于特定语言或平台的生物信息学软件包和安装工具。
- Bioconductor - 基于
R
语言的用于分析高通量数据的工具平台,截至到3.12版本已收录1900多个软件包[ paper-2004 | web ] - Biopython - 基于
Python
的进行生物计算的免费工具,包括使用技巧,包以及详细文档。属于 Open Bioinformatics Foundation的一部分,同时也包含NCBI eutils的API来访问NCBI数据库[ paper-2009 | web ] - Bioconda - conda包管理器中专门针对生物信息学软件的一个channel,包括3000+的生物信息学软件包[ paper-2018 | web ]
- BioJulia - 基于
Jujia
的生物信息学和计算生物学框架[ web ] - Rust-Bio - 基于
Rust
的生物信息学常见数据结构和算法[ paper-2016 ] - SeqAn - 基于
C++
的序列分析库
- GGD - Go Get Data; 命令行下载基因组数据 [ web ]
- SRA-Explorer - 快速获得SRA下载链接和其它信息 [ web ]
- Bioinformatics One Liners - 只一行命令进行生物数据处理
- BioNode - 模块化和通用的生物信息学工具,Bionode为生物信息学分析工作流提供了可移植的UNIX命令行工具和JavaScript API [ web ]
- bioSyntax - vim/less/gedit/submie中生物数据格式(SAM, VCF, GTF, FASTA, PDB等)语法高亮 [ paper-2018 | web ]
- CSVKit - 操作CSV/TAB分割文件的工具 [ web ]
- csvtk - 另一个跨平台,高效实用的CSV/TSV工具箱 [ web ]
- datamash - 数据转换和统计 [ web ]
- easy_qsub - 使用脚本模板快速提交PBS任务,支持多个输入文件
- GNU Parallel - 在一台多核的机器上并行执行任务的通用并行器,这里是使用GNU cParallel的一些示例。
- grabix - 随机访问BGZF文件的轻量工具。
- gsort - 按照指定顺序排序基因文件
- tabix - 表格数据建立索引 [ paper-2011 ]
- wormtable - 大型数据集单写多读
- zindex - 压缩文本文件创建索引
- jq👍 - 命令行处理JSON文件
- BigDataScript - 跨系统脚本语言,用于处理具有不同算力的计算机系统中的大数据流程的跨系统脚本语言 [ paper-2014 | web ]
- Bpipe - 一种定义流程不同阶段及串联起来的轻量语言 [ web ]
- Common Workflow Language - 用于描述分析工作流程和工具的规范,从工作站到集群,云和高性能计算(HPC)环境的各种软件和硬件环境中都具有可移植性和可伸缩性 [ web ]
- Cromwell - 面向科学工作流程的工作流程管理系统 [ web ]
- Galaxy - 一个流行的开源,基于Web的平台,用于数据密集型生物医学研究。 从数据分析到工作流管理再到可视化工具一站式解决 [ paper-2018 | web ]
- Nextflow 👍 - 基于UNIX管道概念建模的流畅DSL,简化了以可移植方式编写并行和可扩展管道的过程。 [ paper-2018 | web ]
- Ruffus - 广泛用于科学和生物信息的计算流程Python库[ paper-2010 | web ]
- SeqWare - 基于Hadoop Oozie的工作流系统用于云环境中的基因组数据分析 [ paper-2010 | web ]
- Snakemake👍 - Python中的工作流管理系统,旨在通过提供快速舒适的执行环境来降低创建工作流的复杂性 [ paper-2018 | web ]
- Workflow Descriptor Language - Broad开发的流程标准(已archived) [ web ]
- Awesome-Pipeline - 流程资源列表
- Bactopia - 基于Nextflow的细菌基因组分析流程 [ web ]
- bcbio-nextgen - 已验证可扩展的,社区开发的变异检测,注释,预测,RNA-seq和小RNA分析流程 [ web ]
- snakepipes👍 - 基于snakemake的流程,包括ChIP-seq,mRNA-seq, noncoding-RNA-seq, ATAC-seq, scRNA-seq,Hi-C,Whole Genome Bisulfite Seq/WGBS [ paper-2019 ]
- seqmagick - 方便使用Biopython进行文件格式转化 [ web ]
- bioconvert 👍 - 目前支持45种格式,95种转换[ web ]
序列处理包括对原始测序数据去除接头和低质量序列。
- AfterQC - 对FASTQ数据自动过滤,triming,移除错误和质控[ paper-2017 ],后作者使用C++重新实现,成为
- fastp 👍 AfterQC作者使用C++重新实现 [ paper 2018]
- FastQC - 高通量测序数据FASTQ质控工具 [ web ]
- Fastqp - 基于
python
的FASTQ和SAM质控工具 - Fastx Tookit - FASTQ/FASTA 短序列处理工具:去接头,trimming,碱基质量过滤,masking[ web ]
- MultiQC 👍 - 汇总多个样本的生物信息分析结果到一张报告 [ paper-2016 | web ]
- SeqKit - 基于
Go
的跨平台,超快处理FASTQ/FASTQ文件的工具包[ paper-2016 | web ] - Seqtk 👍- 处理FASTA/FASTQ格式中序列的工具箱
- smof - UNIX-风格的FASTA操作工具
以下条目通过引入专门数据库支持可扩展的基因组分析
- Hail - 可扩展基因组分析(类似pandas?)
- GLNexus - 群体测序项目中可扩展gVCF合并以及联合变异检测[ paper-2018 ]
- Bowtie 2 - 一种超快速且节约内存的工具,将测序序列与参考序列进行比对。[ paper-2012 | web ]
- BWA - DNA序列间两两比对的Burrow-Wheeler Aligner
- WFA - wavefront比对算法(WFA)利用序列的相似性加速比对 [ paper-2020 ]
- Parasail - 用于全局,半全局和局部序列比对的SIMD C库[ paper-2016 ]
- MUMmer - 整基因组比对 [ paper-1999 | paper-2002 | paper-2004 | web ]
- POA - 偏序比对用于多序列比对以及同源序列保守序列[ paper-2002 ]
- MMseqs2 - 用于蛋白质和核酸序列数据集超快、敏感搜索和聚类工具 [ paper-2017 | paper-2018 ]
- Cufflinks - Cufflinks组装转录本,估计表达风度,RNA-seq样本差异表达和调控分析 [ paper-2010 ]
- RSEM - RNA-Seq数据基因层次和转录本层次表达定量 [ paper-2011 | web ]
- freebayes - 基于贝叶斯单倍型多态性发现及基因分型 [ web ]
- GATK 👍- 高通量数据变异检测金标准[ web ]
- deepvariant - 深度学习变异检测 [ Nature Biotechnology-2018 ]
- Octopus - 基于多态性贝叶斯分型模型的变异检测 [ Nature Biotechnology-2021 ]
- Delly - 整合paired-end和split-read分析的结构变异识别[ paper-2012 ]
- lumpy - 基于概率框架检测结构变异 [ paper-2014 ]
- manta - 从双端比对数据中检测结构变异和Indel [ paper-2015 ]
- gridss - 基因组重排检测工具集 [ paper-2017 ]
- smoove - 结构变异检测,基因分型
- cnvkit - 靶向DNA测序拷贝数变异检测 [ paper-2016 ]
- samtools 👍- 操作高通量测序数据的工具箱 [ paper-2009 | web ]
- bamtools - 处理BAM文件工具集 [ paper-2011 ]
- bam toolbox MtDNA:Nuclear Coverage; BAM Toolbox can output the ratio of MtDNA:nuclear coverage, a proxy for mitochondrial content.
- mergesam - 自动SAM/BAM文件转换
- mosdepth - WGS,WES,pannel快速BAM/CRAM测序深度计算 [ paper-2017 ]
- SAMstat - SAM/BAM文件统计 [ paper-2010 | web ]
- Somalier - BAMs/CRANs/VCFs/GVCFs 快速样本交换及相关性检查 [ paper-2020 ]
- Telseq - 从全基因组测序数据中估计端粒长度 [ paper-2014 ]
- sambamba👍 D语言编写的sam/bam处理工具,markdup等操作较samtools快 [ Bioinformatics-2015 ]
- bcftools👍 - VCF文件操作的工具及 变异检测[ paper-2016 | paper-2017 | web ]
- vcfanno - 使用VCFs/BEDs/tabixed文件注释VCF [ paper-2016 ]
- vcflib - 解析和操作VCF文件的C++库
- vcftools - VCF操作和统计(比如连锁不平衡,等位基因频率,Fst)[ paper-2011 ]
- gffutils - GFF和GTF文件操作工具及相互转换[ web ]
- BEDOPS - 快速,高度可扩展且方便并行处理的基因组分析工具 [ paper-2012 ]
- Bedtools2 - 基因组分析的“瑞士军刀” [ paper-2010 | paper-2014 | web ]
- Bam Surgeon -在已有
.bam
文件中添加变异,用于变异检测工具测试 [ web ] - wgsim - Comes with samtools! - 测序数据模拟 [ web ]
- SIFT - 预测氨基酸替换是否影响蛋白质功能 [ paper-2003 | web ]
- SnpEff - 遗传变异注释及效果预测工具箱 [ paper-2012 | web ]
- SpliceAI - 预测遗传变异对剪切的影响[ Cell-2020 ]
- ensembl-vep - 遗传变异注释和效果预测
- cruzdb - Python访问USCC数据库 [ paper-2013 ]
- pyensembl - Python访问Ensembl数据库 [ web ]
- bioservices - Python访问生物Web服务,如KEGG, BLAST [ paper-2013 | web ]
- cyvcf - pyVCF 使用Cython加速版本
- cyvcf2 - Cython + HTSlib == 快速解析VCF,比pyVCF还快 [ paper-2017 | web ]
- pyBedTools - Python封装的bedtools](https://github.com/arq5x/bedtools). [ paper-2011 | web ]
- pyfaidx - Python访问fasta文件
- pysam - Python封装的samtools. [ web ]
- pyVCF - Python解析VCF文件 [ web ]
下列工具可用来可视化基因组数据,包括DNA-seq,RNA-seq,ChIP-seq,变异等。
- Squiggle - DNA序列可视化 [ paper-2018 | web ]
- biodalliance - 轻量级基因组浏览器,支持多种经典的基因组文件格式,比如bigWig,BAM,VCF等[ paper-2011 | web ]
- BioJS - 收录生物学数据可视化的JS组件库 [ paper-2014 | web ]
- Circleator - 使用BioPerl和SVG环形可视化基因组相关数据 [ paper-2014 ]
- DNAism - 基于D3的DNA数据可视化JS库 [ paper-2016 | web ]
- IGV js👍 - 基于Java的基因组浏览器,同时提供JS版本。支持多种数据格式 [ paper-2019 | web ]
- Island Plot - 基于D3的基因组浏览器[ paper-2015 ]
- JBrowse - 通过插件和track个性化高度定制的基因组浏览器 [ paper-2016 | web ]
- PHAT - 病原-宿主可视化分析工具 [ paper-2018 | web ]
- pileup.js - 可交互,高度定制的基于web的基因组浏览器JS库 [ paper-2016 ]
- scribl - HTML5 canvas 基因组图形库 [ paper-2012 | web ]
- pyGenomeTracks - Python绘制基因组浏览器track
- WashU EpiGenomoe Browser - 表观基因组浏览器 [ Nucleid Acids Research 2019 | web ]
- Circos - 基因组数据环形可视化Perl包 [ paper-2009 | web ]
- OmicCircos - 组学数据环形可视化R包 [ paper-2014 | web ]
- J-Circos - Circos Java版 [ paper-2014 | web ]
- circlize👍 - Circos R包 [ paper-2014 ]
- fujiplot - GWAS结果Circos展示 [ paper-2018 ]
- circosJS👍 - 基于d3的Circos JS库
- ideogram - 染色体可视化的JS库
- karyoploteR - 可视化染色体/track的R包
- UpSetR👍 - 另一种展示集合交并集的方式 [ Bioinformatics-2017 ]
- Entrez Direct: E-utilities on the UNIX command line - UNIX命令行工具访问NCBI数据库
- 什么是生物信息学家(英文)
- 生物信息学课程指南:定义核心竞争力(英文)
- 读生物信息学/计算生物学博士/博士后的N个理由(英文)
- 生物信息学家聚会交流的10步指南(英文) - 这是当领域外的人问"你在做什么?"介绍专业的概念的一步步指南。
- 生物信息学简史 (2039年)(英文) - C. Titus Brown回归2039年以来的生物信息学,演讲笔记参考这里.
- 再见生物信息学(英文) - 对生物信息学的批判观点
- 著名生物信息学系列采访 - 著名生物信息学家采访,对当今生物信息学研究现状的看法及职业规划有帮助
- 开源的生物信息学社会大学 - 生物信息学免费课程
- Rosalind - Rosalind是一个通过解决问题学习生物信息学的平台
- 写给孤独生物信息学家的指南(英文) - 本指南针对生物信息学家的职业发展。
- 生物信息学简史
- Awesome-alternative-splicing - 可变剪切软件,数据库,工具的资源库
- 下一代测序技术 - Elaine Mardis (2014) [1:34:35] - 二代和三代测序技术的综述,以及在癌症研究中的应用
- Annotated bibliography of *Seq assays - 约100篇论文列表,涉及从转录到可转座因子发现的各种测序技术
- For all you seq... (PDF) (3456x5471):thumbsup: - Illumina提供的测序远离示意图,涵盖蛋白质相互作用,RNA转录,RNA-protein相互作用,低丰度RNA检测,RNA修饰,RNA结构,DNA重排,低丰度DNA检测,表观遗传学,DNA-蛋白质互作。
- RNA-seq的综述文章 (Biostars) - 包括RNA-seq和分析方法的开创性文章
- Informatics for RNA-seq: A web resource for analysis on the cloud - 使用亚马逊云服务分析RNA-seq的教育资源,包括数据准备,预处理,差异表达, 异构体发现,数据可视化和解释
- RNA-seqlopedia - RNA-seqlopedia提供RNA-seq综述,以及成功进行RNA-seq实验必要选择
- A survey of best practices for RNA-seq data analysis - RNA-seq计算分析路线图,包括挑战/障碍和注意事项,以及如何整合RNA-seq数据和其它数据类型
- Stories from the Supplement [46:39] - Lior Pachter分享著名RNA-seq分析软件CuffDiff和Cufflinks背后的故事及方法学
- RNA-seq生物信息学工具 - RNA-seq分析工具Wiki列表,包括质控,比对,可变剪切分析和可视化
- RNA-seq Analysis - @crazyhottommy 关于RNA-seq分析各步骤及注意事项的笔记
- ChIP-seq analysis notes from Tommy Tang - ChIP-seq数据分析资源,包括文章,方法,软件和分析步骤
- Current Topics in Genome Analysis 2016 - NIH举办了精彩的十四讲系列讲座,内容涉及基因组学从序列分析到测序技术。
- GenomeTV - GnomeTV是NHGRI收录演讲,纪录片,会议的官方视频资源,包括基因组研究,问题和临床应用
- Leading Strand - 冷泉港(CSHL)会议主题演讲
- Genomics, Big Data and Medicine Seminar Series - 关于基因组学,大数据,医药的系列研讨会
- Rafael Irizarry's Channel - Rafael Irizarry关于基因组统计学的学术报告
- NIH VideoCasting and Podcasting - NIH直播,不仅是基因组学和生物信息学,还包括其它特定领域使用生物信息学和基因组学的精彩演讲
- ACGT - Keith Bradnam的博客,主要关于生物学,基因组学以及生物信息学的看法
- Opiniomics - Mick Watson的博客,主要关于生物信息学,基因组学和生物学
- Bits of DNA - Lior Pachter的博客,主要关于计算生物学的综述和评论
- it is NOT junk - Michael Eisen的博客,主要关于基因组学,DNA,进化
- Leek group基因组文献推荐阅读 - 专家校正的基因组文献帮助快速入门基因组学,RNA-seq,基因组统计学,软件开发
- 在线计算生物学课程 - 本文介绍了数百个免费视频课程,对那些希望扩展其生物信息学和计算生物学知识的人们来说是必不可少的。这些课程分为11个学科领域,并附有评论和职业建议。
- Perl是如何拯救人类基因组计划(英文) - Lincoln D. Stein的一则轶闻,关于人类基因组计划中Perl语言的重要性
- Nature Biotechnology/PLos Computational Biology科普文章(英文) - Nature Biotechnology和PLos Computational Biology上关于计算生物学和生物信息学各种方法的入门的科普文章链接
- PeerJ生物信息软件工具集 - Keith Crandall and Claus White整理的PeerJ上有趣,创新及香瓜你的生物信息学工具
- Bioinformatics (on Discord) - 生物信息学Discord服务器
- r-bioinformatics - r/bioinformatics官方Slack
- BioinformaticsGRX - 位于西班牙格拉纳达的生物信息学家社区
- Comunidad de Desarolladores de Software en Bioinformática - 以拉丁美洲为中心的生物信息学家社区
- COMBINE - 澳大利亚生物信息学学生团体