88%的和这些特征相关的GWAS找到的这些变异,它都是处在这些非编码区域的
所以对于这些非编码区变异的这些研究,也是一个非常活跃的一个研究方向
从方法来看,那么我们只能看,大家研究比较多的这个非同义突变
它对功能和表型影响都有哪些方法?所以大家想象一下,如果你来做这个事情,比如说你的导师让你来做这样一个事情
来也测非同义突变是不是会导致功能变化,你会怎么来做这个事情
当时在99年的时候,Eric Lander课题组就在Nature genetics上发表了这样一个文章,
它那个里面的一部分等于就是用了这个BLOSUM替代矩阵来评估,那么BLOSUM等于就是用演化上的一个信息
来评估两个氨基酸他到底相似的程度有多少,
但是这个方法最终发现准确性并不是很好,在2001年的时候,同一年发表了两个文章
是到后边的很多年一直是最重要的两个方法
其中的一个叫做SIFT的一个方法,它主要是基于保守性,
它是什么样的一个概念,SIFT和BLOSUM作者其实是一个课题组,它就看到虽然这个替代矩阵可以评估两个氨基酸的相似性和可替代性
但是,其实在不同的蛋白,不同的位点,
它对氨基酸替代的容忍程度是不一样的,所以它后来就做了一个基于同源蛋白每一个位点上的它的氨基酸保守性的评估,有一些位点,它就超级保守
所有物种中都没有看到过其它的任何的别的氨基酸,那你如果在一个个体中看到那个位点有一个变异,哪怕它
其实不是很严重的一个变异,但可能在那个位点,它就是严重,还有一些位点,就在不同物种的同源蛋白中,你看它什么氨基酸都可能会出现,
就是完全可以比较随意地发生改变的,那那个位点即使貌似比较严重的一个替代它可能也不会对它的结构和功能有影响
所以它主要是基于这样的一个最基本的假说,这个方法至今仍然是非常重要的一个方法
SIFT这个方法是2001年由Pauline 和 Henikoff发表的,刚才也提到,Henikoff就是发表BLOSUM矩阵的这个科学家
它的基于的这个假设,就是说,一个重要的位点它应该在一个物种中的同源蛋白中应该是比较保守的,
那如果在这些位点上发生了突变,那这些突变更有可能是会导致个体的适应性的下降
那反过来讲,严重影响个体适应性的这些突变应该在很多物种中不会这样突变存在的
所以它是基于这样的一个概念
同时,还有很多的位点,它在不同的这个物种中,在同源蛋白中,变化很大,
什么都可以看到,那你在这个位点又看到一个变异,它可能就相对比较中性的
那你如何来实现这样一个非常直观,听起来很有道理的这样一个想法?
第一步你就先要把可能的同源蛋白先找出来,这个就是数据库搜索,也就是BLAST做的事情。
比BLAST更好一点就是这个PSI-blast,也是一个BLAST的一个变种,一个衍生的一个方法,通过PSI-blast就把和你这个序列相似的序列都找出来
那你如果都找出来的话,它有一些在离得比较远的物种,或者说
不是很远的物种,但它这个基因经过复制之后,它有一些同源蛋白,它会有功能上的分化
它可能序列和功能已经差得比较多了,你再拿它过来做,建一层模型,可能会给你带来一些错误
所以它第二步就只挑那些相似度比较高的,更有可能在功能上仍然一致的序列,
来进行后续的这个比对,它挑的就是在比对上的这些区间要有90%的一致性
然后它就做这个多序列比对,比如说像这个有些位点它就是完全保守的
在这些不同的物种中完全保守,有些位点它就会有一些变化,而这个,还有一些位点它变化就会比较多
于是它第四步就根据每一个位点,你所看到的氨基酸的分布就可以算一个概率
基于这个概率,它得到它最后的一个值,一个数值的一个预测值,如果这个SCORE分数是小于0.05的,它就预测它是
是deleterious,如果是大于0.05,它就是中性的,不会造成功能和表型的改变
SIFT现在可以直接在网上使用,你可以直接输入你的序列或者说你可以直接输入它在染色体上的位置,是什么变异,然后SIFT就会给你
输出这样的一个预测结果,它就会告诉你的这个在基因组位置是什么,是从什么变到什么,
它是造成的氨基酸改变是什么,它是位于外显子区还是什么区域
它是同义的还是非同义的?SIFT软件预测出来的它是TOLERATED就是Neutral还是DAMAGING就是Deleterious,
最后就是它的这个SCORE,你可以看到这个比较高的这个SCORE它就认为是可以被忍受的变异,不会对表型和功能有严重影响的,
那像这种0.020的这样的就是被预测是DAMAGING
根据他们自己06年的一个文章,假阴性有31%,就是有31%的影响功能和表型的变异它被算法预测称了不影响
另外False Positive就是说还有20%的它预测出来是影响表型功能其实是不影响的。
Coverage是什么?是说,所有的这些非同义突变里边,它有60%是它可以用来做预测的,
因为如果有一些基因就没有同源蛋白,那它就没有办法用它的这个方法,
所以你看很多的预测的方法它都会有False Negative,False Positive和Coverage这些数值,
其实大家做实验可能比较清楚,你想象一下任何任何一个实验它也都是有False Negative,False Positive和它能处理的问题和不能处理的问题的。
所以你也看到这个准确度其实还是很不尽人意的。
那么下面我们就讲一讲我们怎么定义这样一个准确度
首先像这个问题里,你希望预测的是什么?
首先像这个问题里,你希望预测的是什么?你希望真正知道的就是说这样的变异是不是真的影响表型,有些Positive就是说的确影响表型,Negative就是不影响表型
这个是你希望知道的一个事情。
那我们怎么办?我们就要有某种实验或者计算的策略来做一个评估,那你所有的实验
的结果,或者是你预测的结果,有的你会预测出我预测它会影响表型,有的就是说我预测它不会影响表型
这个事实一对就是会有这样一个2*2的这样的一个表
这个所谓的真阳性的就是说事实上的确它是会表型改变,你也预测它表型改变
然后还有真阴性,事实它不会影响表型,你也预测它不会影响表型
但是,永远会存在这两类问题,一个就是说它不会影响表型,你预测它会影响表型,还有就是它其实表型有改变,但你预测出来它其实不影响表型
所以这两类等于是错误,这两个是正确,那我们对于准确度的评估就包括敏感度,敏感度的定义就是说所有
真正表型有改变的这些遗传变异里,有百分之多少你预测出来它是有表型改变的,
所以就是这个True Positive要除以TP+FN等于就是你就把这个True Positive 除以这两个的和
另一个重要指标就是Specificity,就是所有表型没有改变的这些这些案例里,遗传变异里,这就是Specificity,就是True Negative
除以 TN + FP
有的时候我们还会做另外一种评估,就是说我这个实验或者预测,
所有预测出来会改变表型的里头到底里边有百分之多少是真会导致表型的,
这个百分比和刚才这个sensitivity是不一样的百分比,这个百分比是要把你所有预测出来的有多少
改变表型的这些,等于就是这两个的和作为分母,那么分子就是你预测对的True positive,一般把它称为Precision
还有一个叫Negative predictive value,就是说在所有我预测出来不影响表型的这个
这些变异里,有百分多少是真的表型没有改变的,所以就是TN/(TN+FN) ,等于就是拿它做分子除以这两个的和做分母
那还有我们经常最怕看见的,就是所谓False positive和False negative,
False positive就是1-specificity,就是没有表型改变的那些被我们错误地预测出来
它有表型改变的占所有的没表型里的有多少,那这个在统计上也被称为一个α,也就是一个Type I error
在另一个角度就是False negative,就是所有的真的是表型有改变的里头,你预测出来它表型有改变的占百分之多少,这个在统计上也被称为这个β,也就是type II error
所以刚才主要就是讲得就是这个SIFT,同一年发表的另一个工作它是同时结合序列和结构上的信息
它的主要的假设就是说有一些氨基酸的改变可能会影响蛋白的折叠,
影响蛋白相互作用的区间,影响它的稳定性
而蛋白结构如果有改变,那蛋白功能就更可能会发生改变
所以它就整合了序列和三维结构的一些特征
具体来讲就是这样的一个流程
那它的步骤,第一,怎么用这些序列特征和SIFT是比较像的,也是做一个多序列比对,是把这些
同源蛋白,应该功能是一样的蛋白做一个多序列比对,然后或者它就找到这个蛋白的三维结构,或者这个三维结构没有,但是
有一个和你这个蛋白序列比较类似的另外一个蛋白结构有,那你是可以做一个同源建模,来预测它的
三维结构,有了这个结构,PolyPhen它就开始来算,你的这个看到变异的那个位点,它在结构上有什么特征,比如它是不是位于一个二硫键
因为二硫键对结构带来比较大的影响,它是不是处在一个位点,是不是处在一个重要的活性位点?
那它是不是处在跨膜区,跨膜区的变异经常会对结构和功能造成比较大的影响,它是不是处在信号肽的区域等等,这都是它评估的一些特征。
另外,它也评估这个位点所在的二级结构是什么
它是在蛋白的表面还是蛋白的内部,它有没有影响到它能形成的氢键的数目的改变等等
那最后它做判断那就用了一个所谓rule-based,是基于经验的,他们自己课题组
之前也一直做很多蛋白结构的研究这个文章是2001年发表的,00年的时候,当时发表了trends in genetics上另外一篇文章
它就比较了致病那些突变和不致病那些突变他们在蛋白结构上,功能区间上有什么差别,所以根据他们的这些经验,他们就做了这种
基于经验的这样一个方法,比如说这个如果这个变异发生在这个功能位点,或者影响了这个二硫键的形成,
他就不管是在结构上是什么样子,它就把它预测为Damaging,如果说,它是在序列的保守性上很弱很弱,
在不同物种之间能看到很多各种各样序列,各种各样氨基酸,它就把它预测为一个Benign
就是像SIFT,对应SIFT的neutral这样一个Category
所以它的好处就是在有三维结构的时候它的准确率还是比较好的,但是,如果没有三维结构,它这方法就用不了,那它其实就
也只能用在这个序列的信息,并且它的这些规则是完全基于经验的,那你的经验是对还是不对?
于是他们自己课题组在2010年又开发了一个PolyPhen2这个第二个版本,那么在这个版本里,第一增加了更多用来做预测的这些特征
第二,它就改成了用机器学习的一个方法,就是一个叫Naive Bayes的一种机器学习的方法
这个方法开发出来之后,它的评估就发现,它的这个基于机器学习的方法比他自己原来
基于经验的方法的准确度是有很高的提高,
这就是我刚才提到的所谓ROC curve,那么它横轴是false positive rate,纵轴是True positive rate,
一般就是说,你false positive rate 增加的时候,true positive rate 也会增加,这就有一个tradeoff,
你不同方法做比较,就是这样的方法要比这样的方法要好,同样这样的一个方法你把这个cutoff定在哪
看到它有多damaging,我最后就
在这切一刀,我就认为这个cutoff以上
就predict它是damaging的,在cutoff以下我predict 它是不damaing的,那么这个cutoff怎么定,其实也要用这样的一个ROC来定