AI计算模拟
AI COMPUTATIONAL SIMULATION
AI计算模拟
以AI、大数据分析及数字化工作流为基础的综合计算模拟解决方案
OmicSoft:多组学数据管理和大数据挖掘平台

OmicSoft测序数据和组学数据深度挖掘管理平台是QIAGEN公司旗下的一款专业的数据管理分析平台。OmicSoft为客户提供一个集数据内容管理、数据流程化分析、可视化的数据分析平台,能够对测序数据和组学数据进行科学化的管理和高效的分析。

下面就让我们了解一下OmicSoft的测序数据和组学数据深度挖掘管理平台。


这一平台由三部分组成。平台的核心是Array Server,这是整个平台的支架,架构在服务器上的数据存储和处理平台,能够支持样本数据的分类归档存储和对数据进行集群处理分析;在Array Server服务器架构内可以搭载Array Land数据库内容,Array Land分为三个部分的内容:OncoLand,包含了公共数据库中关于癌症的数据,比如oncoGEO,TCGA等;DiseaseLand,包含了公共数据库中关于疾病的样本数据,比如SRA,LINCS等;Single Cell Land包含了公共数据库中的单细胞数据。对于终端用户而言,可以使用Array Studio进行服务器资源的访问和使用,能够上传数据,分析数据,管理数据,还能够访问land数据。

OmicSoft测序数据和组学数据深度挖掘管理平台具有全面的分析功能:支持多种组学数据类型,包括RNA-Seq,DNA-Seq,miRNA-Seq,拷贝数变异(CNV),基因表达芯片,PCR,ChIP芯片和甲基化数据。所有的数据都可通过标准化的流程进行处理,减少错误率,提高数据整合分析的准确性。在OmicSoft平台上具有科学、完整的元数据管理,通过样本数据的元数据可以将样本有效的分类、归档,并且方便之后对数据进行搜索和统计。OmicSoft直接集成了多种工具,能够方便的在一个平台完成数据分析。采用客户端和服务器的方式,既能提供图形化的界面在使用者的终端进行数据管理和分析,又能够由Array Server提供支持的扩展分析和存储容量。


用户的客户端称为Array Studio,可以装在Windows或Mac的台式机或者笔记本电脑上,能够自主的上传样本数据并且进行分析。




OmicSoft平台基本功能


OmicSoft提供了针对各种测序来源的workflow,能够确保数据分析的正确性。科研人员仅需要选择需要的workflow就能够完成分析。如果对哪个workflow有兴趣,还可以在OmicSoft平台上查到工具的详细介绍,进行学习。


在OmicSoft平台上,科研人员只需选择需要做表达聚类的基因和样本,就能够直接生成基因表达的热图,并且根据表达矩阵做出聚类。不仅如此,还能根据样本的元数据对样本进行注释。能够直接对热图进行颜色更改、组别更改等个性化的修改。


在OmicSoft平台上,不需要懂得编程,就能够对样本绘制PCA图,火山图。图像的分组颜色、排列、样品的选择,都是在可视化的操作界面上就能够完成。OmicSoft平台也支持和编程语言对接,也可以在平台上运行脚本,做一些个性化的分析设置。

OmicSoft平台数据分析功能

对于原始NGS数据,OmicSoft能够对FASTQ数据做质量控制,使用OSA与基因组比对,QC,使用RSEM算法进行基因和转录本计数,外显子计数,Exon junction计数,Post-counting normalization,突变检测和注释,可变剪接分析,使用DESeq进行差异分析,使用FusionMap进行融合基因检测,拷贝数检测和分割算法,BAM格式处理和导出等。

对于基因表达分析,OmicSoft能够识别通用平台处理的数据,包含标准化模块(GCRMA,MAS5等),数据质量控制和聚类分析,covariates相关性分析,数据统计分析等。

OmicSoft还能完成拷贝分析,能够生成Log2比值、B等位基因频率、segmentation、基因或片段水平汇总;能够对RT-PCR数据进行分析,进行housekeeper normalization、相对丰度计算等;能够完成基因分型/ GWAS分析,能够做数据QC分析,Binary Traits、Survival Traits分析等。

OmicSoft收录的LAND样本数据

在OmicSoft中包含的LAND数据,是从各种科研数据库中收集的数据样本,样本的范围很广,包括GEO,SRA,TCGA,GTEx等知名的样本数据库。并且按照癌症、常见重大疾病、单细胞研究分别将样本分类存于三个LANDs数据库中:OncoLand收录癌症数据样本的数据库,DiseaseLand收录重大疾病样本的数据库,Single Cell Land收录单细胞研究的数据库。




所有收录进来的数据,都按照统一的处理方法进行了梳理。首先,OmicSoft团队的科学家对所有收集来的样品进行Raw Data的QC检测和metadata的收集。之后根据metadata的记录,将样本进行样本注释,比如分组、对照、样本处理方式等,这些信息方便用户之后对样本进行检索。而样本的Raw Data则会进行均一化处理并进行基因表达值、基因突变位点、基因拷贝数等信息的收集提取。之后所有处理过的数据就可以进行数据分析,比如样本对比分析、数据模型建立等。组学数据和元数据信息都被收录在Land数据库中,方便用户在数据库中进行数据整合和进一步分析。



OncoLand是一个肿瘤学数据库,可帮助缺少实际测序样本的用户通过Land来探索公共癌症基因组数据集,从而获得更多的数据证据,来验证他们的研究。Land能够方便用户进行更快捷的样本数据的信息收集和数据对比分析等深度数据挖掘工作。


在OncoLand的数据库中(如下图),可以直接搜索某一基因或某一疾病相关的样本。在图形化界面中,样本的分组、样本数量等属性以颜色和柱状图直观的显示,方便用户使用左侧的样品导航栏和右侧的样品分类栏进行进一步的数据整理和筛选。

在DiseaseLand中,除了收录了人类疾病样本之外,还收录了小鼠和大鼠的疾病样本,方便用户在数据库中根据不同的物种调取样本进行统一的分析。这些样本不仅仅是RNAseq的测序数据,还包含芯片、miRNA等数据,这些数据来自于GEO,ArrayExpress,SRA,LINCS等数据库。


在Single Cell Land中收录了单细胞测序的数据。单细胞测序使人们对基因表达中的细胞间异质性有了前所未有的了解。Single Cell Land包含来自人类、小鼠和大鼠的数据。能够查找稀有细胞类型的特征,发现瞬时细胞状态的新生物标记,能够比较疾病和正常组织中的细胞类型组成。

在可视化平台中,用户能够根据研究的需要,直接在选定的样本中进行对比和统计分析,并能直接在平台上获得丰富的样本信息,比如同一基因在不同疾病亚型的表达差异,病人生存曲线的绘制,生成散点图、火山图、气泡图、热图等。


综上所述,不同于其他的数据分析软件,OmicSoft不仅提供了可视化的数据分析工具,而且还包括了科学的数据整理和归档功能;更进一步,OmicSoft还通过人工审核的方式收录了很多公共样本数据库比如TCGA,SRA,GEO等数据,能够直接在系统内进行公共数据的搜索、整合、分析,帮助样本不足的小实验获得足量的实验数据;统一平台的统一数据处理方式,不仅能够保证自己数据得到有效的分析,还能够很方便的和其他公共数据进行数据整合、对比分析等。