序:
我是陈连福。于2005进入华中农业大学,开始进入生物学大门。至今(2014年)在生物信息学的NGS分析领域有了一点建树,对NGS分析有了一些摸索和经验。
有感于NGS生物信息分析入门艰难,精通更难,同时学习过的内容容易忘记。同时,生物信息学的重要性越来越大,又加其技术性较深,未来永远会缺乏精通生物信息学的人才。因此,我将一些个人经验和NGS生物信息分析技术记录了下来,逐渐形成了此教材。
在 2013年暑期,我个人在华中农业大学开办了一次培训班,当时教材版本是V1.0;2013年寒假时期,再次开办了一次培训班,其教材版本是V2.0;现 在,2014年初,将其略作修改,形成了本次的教材版本V2.1,并传播给对NGS生物信息分析感兴趣的同学和老师们!
本教材重在各个生物信息软件的操作技巧,将各种NGS数据分析方法贯穿一体。在本教材的指引下,相信会节约很多人1~3年的自行摸索时间!
同时,在生物信息学的道路上越走越远,本教材的版本会不断更新...
最后,本教材几乎所有的字都是本人亲自敲打出来的,难免会有各种错误,敬请谅解!因此,此教材版权仅属于我!此外,有少部分内容使用了华大的资料,后续版本中会删除!
此教材属于内部资料,仅限陈连福和其朋友们进行技术性交流,不可随意传播!
目录:
1. 安装CENOS 6 64位系统 (X86_64) 1
1.1. 本次生物信息学培训的电脑硬件和软件要求 1
1.2. 下载CENOS系统 1
1.3. 将CENTOS系统刻录到DVD光盘上 1
1.4. 安装CENTOS系统 2
2. LINUX系统入门 9
2.1. LINUX命令 9
2.2. CENTOS系统初装整理 14
3. NEXT GENERATION SEQUENCING TECHNOLOGY 18
3.1. ILLUMINA测序的样品要求 18
3.2. ILLUMINA文库制备与检测 18
3.3. ILLUMINA CLUSTER STATION制备 19
3.4. ILLUMINA HISEQ2000上机测序 20
4. NGS数据及其质量控制 22
4.1. NGS数据的特征 22
4.2. NGS数据的过滤 24
4.3. NGS READS的修正 31
5. 基因组DE NOVO组装 36
5.1. 基因组DE NOVO组装原理 36
5.2. 使用VELVET进行基因组DE NOVO组装 41
5.3. 使用SOAPDENOVO进行基因组DE NOVO组装 47
5.4. 使用ALLPATHS-LG进行基因组DE NOVO组装 50
5.5. 使用GAPFILLER对DE NOVO组装结果补洞处理 60
6. GENOME REPEAT SEQUENCE PREDICTION 62
6.1. REPEATS的分类和鉴定软件 62
6.2. 使用REPEATMASKER进行重复序列鉴定 64
6.3. REPEATMODELER的安装与使用 66
7. 短序列的比对与分析 69
7.1. 使用BOWTIE2进行短序列比对 69
7.2. 使用TOPHAT将RNA-SEQ的READS比对到基因组序列 75
7.3. SAM格式介绍 80
7.4. 使用SAMTOOLS操作SAM文件 81
7.5. 使用PICARD操作SAM文件 86
8. VARIANTS 分析 88
8.1. 使用GATK进行VARIANTS CALLING 88
8.2. SAMTOOLS用于VARIANTS CALLING 89
8.3. 结合GATK和SAMTOOLS进行VARIANTS CALLING 92
8.4. VCF格式详解 94
9. 无参考基因组的转录组分析 97
9.1. 使用TRINITY进行转录组的DE NOVO组装 97
9.2. 差异表达分析 100
9.3. 蛋白编码区预测 103
10. 有参考基因组的转录组分析 105
10.1. 使用TRINITY进行有基因组指导的组装 105
10.2. 使用CUFFLINKS进行有参考基因组的基因表达分析 106
11. 基因预测 113
11.1. GFF3格式介绍 113
11.2. 使用PASA进行依赖于表达序列的基因预测 114
11.3. 使用AUGUSTUS进行基因预测 121
11.4. SNAP 126
11.5. GENEMARK_ES 129
11.6. 使用EVM整合基因预测结果 131
11.7. PASA结合EVM整合出完整基因预测结果 134
12. 基因组浏览器GBROWSE 137
12.1. GBROWSE的安装 137
12.2. GBROWSE的配置 140
12.3. GBROWSE的数据的导入 143
12.4. NGS数据的导入 144
12.5. GBROWSE PRACTISE 147
13. 基因功能注释与富集分析 150
13.1. NR注释 150
13.2. SWISS-PROT注释 153
13.3. COG注释 154
13.4. INTERPRO注释 156
13.5. GO注释和富集分析 157
13.6. KEGG注释和PATHWAY富集分析 161
13.7. CAZYME注释 162
14. 使用ORTHOMCL进行同源基因分析 165
14.1. ORTHOMCL介绍 165
14.2. ORTHOMCL的使用步骤 167
14.3. 使用单拷贝同源基因构建系统发育树 169
14.4. 使用FIGTREE来画进化树 171
14.5. ORTHOMCL PRACTISE 171
15. 基因组的共线性分析 173
15.1. MCSCANX安装 173
15.2. MCSCANX使用 173
15.3. MCSCANX PRACTISE 175
16. 生物信息学相关杂技 177
16.1. PERL入门 177
16.2. MYSQL的简单运用 188
16.3. 简易搭建WWW服务器 190
16.4. 简易HTML网页制作 191
交流:
谨将此教材邮寄给志同道合的人!
普通教材使用A4纸双面打印,打印费50元;精装加封皮教材,多需要5元;快递默认为韵达。
请勿随意传播本教材,以免版权纠纷,谢谢!
不提供电子版!