QIAGEN综合案例三:前列腺癌RNA-Seq数据的生物信息学整体解决方案

2018-08-20 21:28:37 来源:源资信息科技(上海)有限公司

新闻摘要:前列腺癌是男性中最常见的癌症,本文采用二代测序(NGS)数据,结合CLCbio和IPA对RNA-seq原始数据进行了处理和挖掘,直接为科研人员提供了如何从原始数据着手进行数据分析的可行性操作方案。

摘要:前列腺癌是男性中最常见的癌症,本文采用二代测序(NGS)数据,结合CLCbio和IPA对RNA-seq原始数据进行了处理和挖掘,直接为科研人员提供了如何从原始数据着手进行数据分析的可行性操作方案。


前言:

前列腺癌是男性中最常见的癌症,也是全世界男性死亡的第二大原因。我们的研究目标是通过利用二代测序(NGS)数据,特别是人类转录组数据,通过生物信息学数据分析和解释,获得关于疾病的机制的新思路。针对改变基因的表达和调控区的变化的分析可以确定肿瘤内生长的癌细胞激活的特定通路和过程。能够找出这些被激活的通路和功能网络可以揭示生物失调的过程,给出可行的治疗方案,并挖掘潜在的生物标志物,能够改善患者预后和治疗效果。如RNA-Seq这样的高通量数据采集技术,产生了大量样本数据用于挖掘基因表达变化规律。NCBI SRA(Short Read Archive)样本数据库能够得到人类前列腺肿瘤与正常组织的样本数据。可以采用CLCbio的NGS处理产品CLC Genomics Workbench(Gx)进行数据的下载和整理。为了能够挖掘背后前列腺癌背后的规律,采用了IPA进行生物信息学分析,以得到背后的生物学过程,经典通路及其他上游因子调控等结果。本文整合了RNA-Seq生物信息学分析的过程,揭示了如何从原始数据着手进行数据的挖掘。


材料和方法:


图一. 分析流程。整合了CLC Genomics Workbench和IPA进行RNA-Seq的数据分析。


如图一所示,整个分析流程主要分为CLC Genomics Workbench下载和处理数据,及IPA深度挖掘数据两个部分组成。本文采用的数据是从Nacu, S & Wu, T . et.al.1文献中获得的,数据为三个患者的正常和前列腺肿瘤组织的样本数据,GEO编号为GSE24283. 肿瘤对正常的差异表达阈值为FC=5,p<0.05。



结果:


图二. 样本质控。A) 样本散点图,并计算了两两样本的相关系数r。从图中看出,患者3的正常样本的与其他样本差异较大,相关系数较低。B)样本的PCA图,正常样本为红色点,肿瘤样本为绿色点,图中可见,患者3的正常样本与癌症样本更为接近。



图三. 热图。A) 肿瘤和正常样本的聚类热图,患者3的正常样本看起来与癌症和正常样本表达pattern都不一样。B)热图的局部放大,能看到具体的基因表达值,例如VEGF就是一个在前列腺癌及其他癌症中都有涉及的基因。




图四. 差异基因(RPKM>5 and FC tumor/control >5)参与的主要经典通路。A) 参与到前列腺肿瘤的通路为ERK/MAPK Signaling, Hypoxia-and VEGF-related Signaling Pathways。蓝色柱状图代表显著性,不同颜色的蓝色代表不同的样本。B) 患者1的前列腺癌信号通路的基因表达值。C) 患者1在心血管系统中的缺氧信号通路中的基因表达值。在B,C两个通路图中,基因边上的小柱状图,按顺序分别代表了患者1、患者2和患者3。能够方便的在图中横向查看不同样本的基因表达规律。



图五. 三组样本差异基因参与的与前列腺相关的生物学过程列表。表中显示生物学过程的名称,参与的基因及p值。



图六. 由患者基因表达,影响功能寻找潜在的治疗机制。如图所示,图中的基因及其关系可能有助于解释疾病的发病机制和过程。将三组样本的差异基因(RPKM>5和FC> 5)导入到IPA中进行分析,描述了基因与前列腺肿瘤和凋亡的功能的联系,其中,VEGFA是已知的药物治疗靶点。图中为患者1的基因表达值,基因边上的小柱状图依次分别对应患者1、2和3的基因表达值,红色代表基因上调,绿色代表基因下调。



图七. 潜在的前列腺癌生物标志物列表。选择在三例患者都变化的基因(RPKM>5)。表中记录了基因的差异倍数,基因名称,基因产物的亚细胞定位,基因是否已经作为肿瘤标志物或用于诊断、预后、疗效或安全性的Biomark,以确定这个基因是否能够作为药物的靶点。



图八. 潜在的前列腺癌生物标志物类别。图中前列腺癌生物标志物及其表达值。并将其分为三个类别:已有的前列腺癌生物标志物,其他癌症生物标志物和假定前列腺癌生物标志物(可以用于实验的验证)


结论: 


分析结果:

● 参与或导致前列腺癌相关功能的基因(有待进一步研究)

● 鉴定可能的通路假设,比如寻找能够导致细胞凋亡或缺氧失调却促进肿瘤血管生成的基因。

● 寻找现有市场的药物潜在的治疗目标(临床试验正在进行中)

● 寻找可能用于实验验证的潜在的前列腺癌生物标志物用于实验验证,并证实了一些已经公布的生物标记物。


CLC-Bio和IPA联合工作:

● 直接分析原始数据,进行QC处理及数据的可视化。

● 直接计算基因/转录本的表达值比如RPKM,counting值。

● 直接计算基因水平或转录水平的样本与对照的差异表达值。

● 能够直接将数据上传到IPA中,进行通路、网络、功能、毒理学、机制假说、治疗靶点、生物标志物等分析。


参考文献及数据:

1.“Deep RNA sequencing analysis of readthrough gene fusions in human prostate adeno-carcinoma and reference samples”,Nacu, S. et.al. BMC Medical Genomics 2011, 4:11.

2.National Center for Biotechnology Information: Short Read Archive:

http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE24284 Accessed January 11, 2011.


本文采用文献中的数据,由QIAGEN科学家从原始数据开始进行生物信息学数据发掘。




Copyright © 2008 - 2020 Tri-ibiotech.com All Right Reserved. | 备案许可证: 沪ICP备11020704.