IVA揭秘——采用Phenotype Driven Ranking算法寻找罕见病突变基因

2019-01-11 11:38:13 来源:源资信息科技(上海)有限公司

新闻摘要:IVA采用了表型驱动排序phenotype Driven Ranking(PDR)的算法,以凯杰强大的表型-疾病-基因网络数据库为背景数据库进行突变的分析与筛选。PDR算法能够按照患者表型来对相关联的疾病或基因的打分,排序,以便加速导致疾病的因果变异的发现。

摘要:NGS被广泛用于寻找罕见遗传疾病患者的致病基因突变。然而从全基因组或外显子测序数据寻找这些突变无疑具有挑战性的一项科学工作。大量的时间都花费在对上百万条突变的注释和解释上。因此,Ingenuity® Variant AnalysisTM(IVA)提供一个部分自动化的解决方案来简化这个过程。

前言:IVA采用了表型驱动排序phenotype Driven Ranking(PDR)的算法,以凯杰强大的表型-疾病-基因网络数据库为背景数据库进行突变的分析与筛选。PDR算法能够按照患者表型来对相关联的疾病或基因的打分,排序,以便加速导致疾病的因果变异的发现。Ingenuity® Variant AnalysisTM (IVA)是一个针对突变分析的平台,依托凯杰公司QIAGEN Knowledge Base(QKB)从人类测序数据中,快速鉴定与疾病显著相关的变异。QKB根据发表的文献和权威的疾病生物学数据库建立起表型-疾病-基因关系网络,用于突变的筛选。IVA能够仅仅数小时内快速完成几百个样本分析。


Ingenuity® Variant AnalysisTM

IVA是一个基于网页的分析工具,用于注释和过滤全基因组和外显子测序得到的突变数据,使用突变数据能够通过质控数据(call quality、read depth、genotype quality等)、群体等位基因频率(1000 Genomes、NHLBI-EVS、ExAC、Allele Frequency Community)、已知的致病基因(文献和HGMD),变异类型(编码区、调节区、非编码区、功能丧失或增加等)、遗传模型、基因疾病关系、基因功能和通路进行筛选或注释。突变数据通过一系列的过滤器,只有满足过滤器设定的条件的突变才会传递给下一个过滤器。默认的过滤器包括常见突变、variant call confidence、遗传模型、功能影响、统计分析以及生物学相关设定。IVA的过滤器采用默认的设置参数,包括去除低质量的calls(call Quality<20)和common Variants(>0.5% MAF in 1000 Genomes,NHLBI-EVS、ExAC、Allele Frequency Community)。只保留ACMG指南发布的致病突变,或文献里确定的与疾病相关的突变,或HGMD里收录的与功能丧失或增加(frameshift、启动子或终止子丢失或增加、剪切区域变化)的突变,或错义突变。


图一. IVA内系列突变过滤器能高效获得测序数据中与表型最相关的突变基因-表型-疾病的关系网络。


QIAGEN Knowledge Base

表型-疾病-基因网络是phenotype Driven Ranking(PDR)运算的数据基础,其节点由疾病、表型和基因组成。这些节点来自于文献的整理,数据库(OMIM、GO、MGI、ClinVar、HGMD、HGMB、GVK、COSMIC)、临床试验和药物标签的整理信息。这些节点由三种类型的有向连接组成:基因——疾病(Gene-Disease,GD)连接、疾病——表型(Disease-Phenotype,DP)连接和基因关联因果(process hierarchy,PH)连接。DP连接将疾病与相关的表型联系起来,反映出HPO和OMIM的内容,与QIAGEN knowledge Base整理的文献信息。并且,DP连接参考了许多外部数据库如NCI,SNOMED,FMA等以及QIAGEN  Knowledge Base,为功能机制提供更为通用的注释。然而,疾病和表型之间没有严格的定义区分,因为一些表型本身就是疾病,也就是说,可以通过DP连接与其他下游表型相连。总体而言,表型-疾病-基因网络包含4811种疾病(与至少一种表型相关)、5843种表型(与至少一种疾病相关,其中348种本身是疾病)和18070个基因(与至少一种疾病相关)。每种基因平均与6.8种疾病相关(最高157种),每一个疾病平均有43.4个相关表型(最大455个),而每一种表型平均与35.9个疾病相关(最大1403个),深层次的机制网络包含106223个生物学功能,包括表型,通过208933PH连接。网络中有190993个DP连接和122538个GD连接(统计于2017年,QIAGEN Knowledge Base每周都在更新,会有更多的节点和连接更新)。


图二. QIAGEN knowledge Base是由数据库,文献来源,整理,组织出一个基因-疾病-表型网络。



表型映射(Mapping of Phonotype)

用户能够输入表型的描述或标准的HPO表型编号(如,HP:0000213),输入一个表型后,QIAGEN knowledge Base能够将表型的描述自动规范化,或将标准编号转化成匹配的表型以供选择。现有超过60000种表型,包括44000种与QIAGEN knowledge Base中突变相关的表型。超过半数的表型描述来源于Snomed,NCI,Orphanet,MeSH,ICD,HPO,MPO,GO和文献资料。HPO表型记录了92%来自于HPO或Orphanet for OMIM或Orphanet描述的疾病。并且对HPO 的支持已经根据其在表型注释中的使用频率进行了优先排序,并且在不断对其进行改进。


phenotype Driven Ranking(PDR)流程

PDR算法的整个工作流程如图三所示。在遗传变异分析中分析全基因组或外显子数据,并根据逐层变异滤波器设置产生一组具有突变的基因。将观察到的表型输入PDR算法,将映射到一组相关的因果基因或相关的疾病,并给予打分。具有突变的基因和疾病相关的基因交叉,获得最终的一组根据疾病打分的基因。在实际的实现中,为了提高计算效率,PDR算法只探测带有突变的致病基因子集。


图三. PDR算法的整个工作流程。将从测序数据获得的突变相关的基因和表型相关的基因做交集,获得最终的与疾病相关的基因列表。

 

结果可视化

IVA在过滤器中整合了PDR算法。在IVA的网页中导入全基因组或全外显子测序数据获得的突变数据,通过并且在PDR过滤器中输入观察到的表型或专业的HPO术语行过滤(图四a)。运行分析之后,结果显示在一个表中(图四b),其中疾病按分数排序。每一个表行都包含一种疾病,具有相关的因果基因或相关的突变基因。该表只显示50个评分的疾病/基因。每行内容包含了表型与疾病之间的打分以及遗传疾病关系的性质(因果关系或非因果关系,源自OMIM和其他来源),以及遗传机制(如已知),以及变异特性(ACMG分类、杂合基因、功能丧失或获得)。当用户选择其中一行时,IVA即给出相关的疾病和基因互作子网络。(见图四c)。


图四. 通过PDR过滤器分析的结果。a PDR过滤器,能够填入疾病表型;b疾病-表型-基因筛选过滤结果表;c选择其中一行获得基因-表型-疾病相关子网络。

 

参考文献:

Andreas K , Sohela S , Anthony R R , et al. Leveraging network analytics to infer patient syndrome and identify causal genes in rare disease cases[J]. BMC Genomics, 2017, 18(S5):551-.

 

 


【责任编辑:(Top) 返回页面顶端
Copyright © 2008 - 2020 Tri-ibiotech.com All Right Reserved. | 备案许可证: 沪ICP备11020704.