美好365app官方下载-beat365体育ios版下载-365bet手机客户端

RNASEQ之linux中进行上游分析

RNAseq analysis¶ 上游分析¶ RNA数据的获取¶我们通常分析的是DNA转录后所对应的RNA链,一般从NCBI数据库获取SRA数据来进行RNAseq分析.因此在获取SRA编

RNASEQ之linux中进行上游分析

RNAseq analysis¶

上游分析¶

RNA数据的获取¶我们通常分析的是DNA转录后所对应的RNA链,一般从NCBI数据库获取SRA数据来进行RNAseq分析.因此在获取SRA编号后可在服务器中下载.下载方式有以下几种:

aspera 工具下载

wget, curl 命令直接下载

NCBI官方的 SRA Toolkit 进行下载

https://zhuanlan.zhihu.com/p/89024212

SRA数据转换成fastq文件¶获取sra数据后在服务器中用fastq-dump 命令对其进行转换,转换后得到fastq文件,该文件可进行RNAseq的上游分析.

fastq-dump --gzip --split-3 -O path -A SRR1039508

md5验证转换的fastq.gz文件是否完整¶md5sum *gz

md5.txt #给自己的文件生成md5值

md5sum -c md5.txt #比对已有的md5值

若结果均显示OK,则表示该数据文件完整

fastqc检测测序文件质量¶fastqc -o outputdir SRR1039508_1.fastq.gz SRR1039508_2.fastq.gz

查看QC文件¶质控之后生成zip文件以及html文件,可查看网页报告,若RNA为双链,会生成两个相应的文件.https://zhuanlan.zhihu.com/p/88655260

multiqc 质量报告(合并多个fastq报告)¶multiqc path/*zip

rawdata的过滤和清除不可信数据---trim_galore¶trim_galore:可以处理illumina,nextera3,smallRNA测序平台的双端和单端数据,包括去除adapter和低质量reads.

In [ ]:

trim_galore [options]

--quality #设定phred quality阈值。默认20(99%的read质量),如果测序深度较深,可以设定25

--phred33 #设定记分方式,代表Q+33=ASCII码的方式来记分方式。这是默认值。

--paired # 对于双端结果,一对reads中若一个read因为质量或其他原因被抛弃,则对应的另一个read也抛弃.

--output_dir #输出目录,需确保路径存在并可以访问

--length #设定长度阈值,小于此长度会被抛弃.这里测序长度是100我设定来75,感觉有点浪费

--strency #设定可以忍受的前后adapter重叠的碱基数,默认是1.不是很明白这个参数的意义

-e #设定默认质量控制数,默认是0.1,即ERROR rate大于10%的read 会被舍弃,如果添加来--paired参数则会舍弃一对reads

#如果是采用illumina双端测序的测序文件,应该同时输入两个文件.

RNA单链¶~/TrimGalore-0.4.5/trim_galore -o path -U SRRxxxxxxx

RNA双链¶~/TrimGalore-0.4.5/trim_galore -o path --paried SRR1039508_1.fastq.gz SRR1039508_2.fastq.gz

In [ ]:

nohup ~/TrimGalore-0.4.5/trim_galore -o path --paried SRR1039508_1.fastq.gz SRR1039508_2.fastq.gz>ssr.out&(挂起)

整理后数据的质控¶对过滤后对文件进行质量分析。观察过滤结果。同样使用fastqc和multiqc两个软件进行质量分析.过滤后数据写入

SRR1039508_1_val_1.fq.gz&SRR1039508_2_val_2.fq.gz中.

In [ ]:

fastqc path/*gz -o path

使用hisat2比对回帖¶

1.建立索引¶如果自己建立索引文件的话,需要消耗大量时间,通常人类基因组和一些动植物的基因组的索引文件可以在NCBI、Ensembl、UCSC、GeneCode下载

2.基因注释文件GTF/GFF的下载¶基因注释文件也可在NCBI、Ensembl、UCSC、GeneCode下载.

GFF(general feature format):用于基因组注释.

GTF(gene transfer format):用于对基因的注释.

https://blog.csdn.net/shandg_lxy/article/details/89182341

https://zhuanlan.zhihu.com/p/79631226

In [ ]:

#下载参考基因组

wget https://ftp.ncbi.nih.gov/genomes/all/GCA/000/001/405/GCA_000001405.28_GRCh38.p13/GCA_000001405.28_GRCh38.p13_genomic.fna.gz

gzip -d GCA_000001405.28_GRCh38.p13_genomic.fna.gz

#下载gff注释文件

wget https://ftp.ncbi.nih.gov/genomes/all/GCA/000/001/405/GCA_000001405.28_GRCh38.p13/GCA_000001405.28_GRCh38.p13_genomic.gff.gz

gzip -d GCA_000001405.28_GRCh38.p13_genomic.gff.gz

hisat2回帖¶

In [ ]:

hisat2 -p 6 -x

-1 SRR1039508_1_val_1.fq.gz -2 SRR1039508_2_val_2.fq.gz -S tem.hisat2.sam

参数说明:

-p #多线程数 -x #参考基因组索引文件目录和前缀 -1 #双端测序中一端测序文件 -2 #同上 -S #输出的sam文件

说明:在比对过程中,hisat会自动将双端测序匹配同一reads并在基因组中比对,最后两个双端测序生成一个sam文件。比对回帖过程需要消耗大量时间和电脑运行速度和硬盘存储空间。5G左右fastq文件比对回帖过程消耗大概一个小时,生成了17G的sam格式文件。回帖完成会生成一个回帖报告。

samtools软件进行格式转换¶SAM文件和BAM文件 samtools 是针对比对回帖的结果——sam和bam格式文件的进一步分析使用的软件。sam格式文件由于体量过大,一般都是使用bam文件来进行存储。由于bam文件是二进制存储所以文件大小比sam格式文件小许多,大约是sam格式体积的1/6 。

https://www.jianshu.com/p/d978fddb9a45

In [ ]:

samtools view -bS seq.sam > seq.bam #文件格式转换

samtools sort seq.bam seq_sorted.bam ##将bam文件排序

samtools index seq_sorted.bam #对排序后对bam文件索引生成bai格式文件,用于快速随机处理.

samtools view -h s.bam|less -S

samtools view s.bam|less -S

# 提取chr1染色体,生成只有chr1的bam文件

samtools view -h -b s.bam chr1 >s.chr1.bam

samtools view -bt ref_list.txt -o aln.bam aln.sam.gz

In [ ]:

#本文例子的linux操作

samtools view -bS tem.hisat2.sam >tem.bam

samtools sort tem.bam tem.sorted.bam

samtools index tem.sorted.bam tem.sorted.bam

到这一步一个回帖到基因组对RNA-seq文件构建完成.

对回帖bam文件进行质量评估¶

samtools falgstat :统计bam文件中比对flag信息,然后输出比对结果.

In [ ]:

samtools flagstat tem.sorted.bam > SRR1039508.sorted.flagstat

gtf<-list.files("./",pattern=".gtf$",full.names=T)

fetureCounts(bam.files,annot.ext=gtf,isGTFAnnotationFile=T)

计数(Count)¶

计算RNA-seq测序reads对在基因组中对比对深度.

计数工具:subread中的featureCounts.

In [ ]:

featureCounts -T 6 -t exon -g gene_id -a -o fc.txt tem.sorted.bam#count

cut -f 1,7 fc.txt |grep -v '^#'>SRR1039508.counts.txt#单独生成counts文件

cat SRR1039508.counts.txt #查看txt

-g # 注释文件中提取对Meta-feature 默认是gene_id

-t # 提取注释文件中的Meta-feature 默认是 exon -p #参数是针对paired-end 数据 -a #输入GTF/GFF 注释文件 -o #输出文件

这一步获得的fc.txt可直接用于下游分析,即可在R的环境下构建表达矩阵后,进行差异性分析、富集分析、聚类分析.

下游分析¶

In [ ]:

← 上一篇: 在家加工什么物品赚钱 分享自己在家加工的7种好物品
下一篇: 【減肥陷阱】消化餅不能助消化為什麼叫消化餅?一日最多吃...塊 →

相关推荐

㬆怎么读

㬆怎么读

㬆 拼音 miánmiànmǐn 注音 ㄇㄧㄢˊㄇㄧㄢˋㄇㄧㄣˇ 部首 日 总笔画 13 部首外 9 四角 67064 五笔 jnaj 仓颉 arpa 郑码 kyhk 字形 左右结构 笔顺 25115151525

秋季钓鱼调漂的正确方法,最详细的调漂教程,手把手教你调漂!

秋季钓鱼调漂的正确方法,最详细的调漂教程,手把手教你调漂!

秋季是一年的第三个季节,别称秋天,具体就是指从立秋到立冬这一段时间,气候特点是前期炎热干燥、后期凉爽多雨,根据季候不同可分为初

数声风笛离亭晚,君向潇湘我向秦。

数声风笛离亭晚,君向潇湘我向秦。

扬子江头杨柳春,杨花愁杀渡江人。数声风笛离亭晚,君向潇湘我向秦。 赏析 郑谷的七言绝句保持了长于抒情、富于风韵的特点。 一、二两句

吉利gnetlink适用哪些车型

吉利gnetlink适用哪些车型

吉利GNetLink是吉利汽车公司推出的一款车载信息服务系统,它适用于吉利旗下的多款车型。以下是一些使用GNetLink的车型: 1. 吉利帝豪(Empassy)

策马三国志买什么英雄比较好 策马三国志买哪些英雄比较好

策马三国志买什么英雄比较好 策马三国志买哪些英雄比较好

策马三国志是一款三国题材的塔防策略闯关类游戏,玩家在游戏中可以进行各个剧情关卡的挑战,非常多有趣的关卡需要玩家操作武将来完成,

如何做一名快手主播——从零到百万粉丝的成功秘籍

如何做一名快手主播——从零到百万粉丝的成功秘籍

快手作为国内领先的短视频平台之一,吸引了无数年轻人希望通过直播来展示自己,甚至实现经济自由。成为一名成功的快手主播并不是一蹴而