关于蛋白质类本科毕业论文范文 和基于子特征的蛋白质序列图形表示相关本科毕业论文范文

本论文主要论述了蛋白质论文范文相关的参考文献,对您的论文写作有参考作用。

基于子特征的蛋白质序列图形表示

摘 要: 根据子碱基位置特征和氨基酸的疏水性指数值,20种氨基酸被映射为3维空间中的向量,提出一种新的迭代函数关系将氨基酸序列转化为三维空间中的一条曲线,获得一种新的蛋白质图形表示方法.对蛋白质图形,利用闵可夫斯基距离刻画两个3维曲线之间的距离,依此推断蛋白序列之间的差异性和物种之间的进化关系.将该方法分别应用在9个物种的ND5蛋白和12个物种的β珠蛋白序列分析中,所得结果与ClustalW方法的结果以及其他文献中的结果对比后证明该文方法有效可行.

关键词: 子特征;蛋白质序列;图形表示;相似性分析

中图分类号: O29

文献标志码: A

文章编号: 1673\|3851 (2018) 07\|0474\|10

0引言

基于DNA和蛋白质序列的相似性分析,可以推断出不同物种之间的进化关系.所以分析序列的相似性是生物信息研究的重要课题[1].在序列的相似性分析研究中,最常用的是序列比对方法,但由于序列比对方法的计算复杂度大.近些年,许多非序列比对方法被提出来并得到使用,其中一种就是图形表示方法[2].

在生物序列数据库中,DNA和蛋白质序列是用字母序列表示的.在DNA数据库中,DNA序列是由A、C、G、T四种字母组成;在蛋白质数据库中,蛋白质序列是由A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W、Y二十种字母组成[3].图形表示方法是通过数学映射,把字母序列转化为空间图形,构建数学模型刻画图形之间的差异,进而推断物种之间的进化关系.图形表示法以其可视性好,计算简单,容易给出数值刻画等多方面的优点,受到研究者们的普遍关注[49].

最初,Hamori等[10]利用随机游走,将DNA序列转化为3维曲线(H曲线)表示.此后,许多研究沿着这个思路,将序列转化为1维、2维和4维曲线[11].组成蛋白质序列的氨基酸有20种,与DNA序列的四种核苷酸相比,情况更为复杂,但蛋白质图形表示方法基本上都是DNA序列图形表示方法的推广,Rahman等[11]和Yu等[12]所采用的方法均是DNA序列图形表示方法的简单拓展.对于映射关系,氨基酸的理化性质[6,9,1318]和氨基酸的循环排列[2,5,1922]常常是研究者们建立映射关系的依据.

通过氨基酸的映射关系,构造迭代函数,将序列中的氨基酸映射成空间中的一个点,顺次连接这些点,就构成了蛋白质序列的图形表示[23].对于迭代关系式,Jeffrey[4]使用相同参数的迭代关系式图形表示方法,随后,许多研究者使用同参数的迭代关系式[3,21,2326].此外,Ma等[8]首次提出异参数的迭代关系式,同样也取得不错的结果.结合Jeffrey[4]和Ma等[8]的观点,He等[27]提出广义混沌游戏表示方法.在把序列转化为曲线之后,数值刻画对于描述图形是必不可少的.图形表示只是提供视觉上的比较,但是数值刻画能够量化不同曲线之间的差异性.例如,在Yao等[7,28]通过几何中心来描述曲线之间的差异,在He等[21]采用距离矩阵的特征值来描述曲线之间的差异等.

本文考虑子碱基位置特征和氨基酸的疏水性特征,将氨基酸映射成为一个三维向量.结合Ma[8]和He等[27]结论,本文选取一种新的迭代关系式,获得新的3维图形表示方法.此外,为了比较曲线之间的差异,本文计算两个曲线之间的闵可夫斯基距离.应用新的3维图形表示方法到9个物种的ND5蛋白和12个物种的β珠蛋白序列上,分析它们之间的相似性并推断相应物种之间的进化关系.将相似性分析结果与经典的多重序列比对算法ClustalW方法得到的结果做相关性分析,验证本文的方法有效性.

1蛋白质的3维图形表示方法

1.1氨基酸的三维坐标

四种碱基A、G、C、T可以组成64种三联体子.其中,61种子对应20种氨基酸,即通常所谓的遗传表.观察表可以看出,子的第一个位置和第二个位置的碱基几乎可以决定子翻译的是何种氨基酸.此外,子的第二个位置的碱基与子翻译的氨基酸的许多理化性质都有关联.所以,子的第二位碱基对于子的理化性质有着特殊的意义.由此,本文根据子第二位碱基的种类,将64种子分布在2维平面的四个象限内.

根据子第二位碱基确定三联体子所在象限,如图1所示,如果子的第二位碱基是A,本文将第二位碱基是A的16种三联体子全部放置在第一象限,类似的,如果第二位碱基分别是G、T、C,分别置于第二、第三和第四象限.选择第一个位置和第三个位置上碱基的映射关系如下:G→1、A→2、C→3、T→4.通过第一位和第三位碱基的映射关系,可以将61种子和3种终止子分布在2维平面内.例如子TGA,中间碱基是G,所以它放置在第二象限,又因为第一位置和第三位置上的碱基分别为T和A,根据映射关系T→4、A→2,所以子TGA的坐标为(-4,2).根据这种规则,64个三联体子分别被放置在一个二维平面内(图2).根据遗传表,将64个三联体子翻译成20个氨基酸与终止子(图3).

图1第二个位置碱基决定子象限图

图2子平面分布图

图3氨基酸平面分布图

对于图3中的氨基酸,取同一氨基酸坐标的平均值作为该氨基酸的坐标,记作(P1,P2).此外,由于氨基酸疏水性在保持蛋白质的结构上起作用,将氨基酸的疏水性指数值[29]作为第3维坐标,记作P3,构建氨基酸的3维坐标,记作(P1,P2,P3),如表1所示(第3~5列).

为了消除坐标值来源不同对结果的影响,文章对坐标值做了标准化处理,公式如下:

a′等于2×a-nmaxnmax-nmin-1(1)

其中:a′是标准化之后的坐标值;a是标准化之前的坐标值;nmax和nmin为分别为坐标值中的最大值和最小值.根据式(1)可得新的3维坐标值,记作X,Y,Z,见表1(第6~8列).20个氨基酸的坐标对应的20个向量,如图4所示.

图4氨基酸对应的3维坐标向量

1.2异参数迭代关系式

氨基酸是蛋白质的基本单元,通过氨基酸的3维坐标,笔者将蛋白质序列中的每个氨基酸转化为空间中的点,顺次连接这些点,得到蛋白质的3维图形表示.对于长为n的蛋白质序列s1s2s3…sn,每一个点(当i从1到n)对应的坐标Pi等于(xi,yi,zi),通过迭代关系式计算得出,通常迭代关系式的形式为:(本文选择P0等于(0,0,0))

xi等于αxi-1+βS1i

yi等于αyi-1+βS2i

zi等于αzi-1+βS3i(2)

其中:Sji(j等于1,2,3)表示第i个氨基酸的第j个坐标分量;α,β∈(0,1].异参数的迭代关系式在Ma等[8]首次提出,该文中选取参数α等于34,β等于12,并通过计算发现,β为图形的压缩参数(Compression parameters),仅影响图形的大小,而不影响图形的形状[8],因此本文设置参数β等于1.此外,考虑异参数α≠β,本文选取参数α等于45,则迭代关系式为:

xi等于45xi-1+S1i

yi等于45yi-1+S2i

zi等于45zi-1+S3i(3)

通过式3,氨基酸序列s1s2s3…sn被转化为P1,P2,P3,…,Pn共n个三维空间中的点,顺次连接这n个点,获得氨基酸序列的三维曲线.

1.3图形表示的数值刻画

本文选取闵可夫斯基距离表示不同曲线之间的距离.对每一个氨基酸序列对应的3维曲线,首先计算曲线中每两个相邻点之间的差向量,再计算每两个曲线之间的闵可夫斯基距离.蛋白质序列s1s2…sn1和序列s′1s′2…s′n2(n1,n2分别为序列的长度,假设n1>n2),首先计算三维曲线中前后两个点的差向量,计算公式为:

E1i等于(xi-xi-1,yi-yi-1,zi-zi-1)

等于(Xi,Yi,Zi),(i等于1…n2),

E2i等于(x′i-x′i-1,y′i-y′i-1,z′i-z′i-1)

等于(x′i,Y′i,Z′i),(i等于1…n2).

其次计算闵可夫斯基距离,计算公式为:

d1,2(i)等于m(Xi-X′i)m+(Yi-Y′i)m+(Zi-Z′i)m,

i等于1,…,n2(4)

设k为剩余n1-n2个点之间的平均距离,所以两个序列的图形之间的距离公式为:

d1,2等于∑n2i等于1d1,2(i)+k×(n1-n2)(5)

其中:在式(4)中,m是正整数,对于两条曲线,每个m值都对应着一个距离,基于m∈[1,10]中的10个正整数,比较不同m值对结果的影响,最终选取m等于1时,即哈密顿距离;在式(5)中,由于k取mind1,2,mind1,2(i)+maxd1,2(i)2和maxd1,2(i)值对距离矩阵没有影响,因此选取平均值k等于mind1,2(i)+maxd1,2(i)2,i等于n2+1,…,n1.

2蛋白质序列的相似性分析

2.1数据来源

本文将新的序列图形表示方法应用到9个物种的ND5蛋白(NADH dehydrogenase subunit 5)和12个物种的β珠蛋白上,蛋白相关的信息见表2和表3.

2.2相似性分析

a) ND5蛋白序列

根据表2中9个物种的ND5蛋白数据,氨基酸的映射关系和闵可夫斯基距离公式,计算出这9个物种ND5蛋白的距离矩阵,如表4所示.ClustalW算法是目前被广泛应用的经典多重序列比对算法,为了说明本文方法的有效性,利用Megalign程序实现的ClustalW算法计算9个ND5蛋白的距离矩阵,结果如表5所示.

表4和表5数据表明,较大的元素均在最后一列,表示负鼠与其他8个物种的进化距离最远;最小的元素分别为58.3(表4)和3.6(表5),均表示鳍鲸与蓝鲸的进化距离在这9个物种中是最接近的;在表4中,人类、大猩猩、倭黑猩猩、黑猩猩之间的距离明显小于与其他物种的距离,同样也能够在表5中得出这样的结论.根据两个表中数据的特点,大致可以将9个物种分为四类,分别为人类、大猩猩、倭黑猩猩、黑猩猩;鳍鲸、蓝鲸;大鼠、老鼠以及负鼠,两表中数据表示的进化关系基本一致.

此外,根据本文方法的结果(表4),运用生物信息学中构造进化树常用的UPGMA方法构造出进化树,结果如图5所示;根据ClustalW算法的结果(表5),构造出进化树,结果如图6所示.

图5基于本文方法构建的9个物种的进化树

图6基于ClustalW方法构建的9个物种的进化树

由图5和图6可以看出,本文方法构造的进化树与ClustalW方法构造的进化树在结果上完全相同,且两个进化树的分支结构上也非常相似,鳍鲸和蓝鲸均在同一个分支,人类、大猩猩、倭黑猩猩和黑猩猩在同一个分支,老鼠和大鼠在同一个分支,表示在9个物种里,鳍鲸和蓝鲸的进化距离最近可以归为一类,人类、大猩猩、倭黑猩猩和黑猩猩归为一类,老鼠与大鼠归为一类,与这些类距离最远的是负鼠,进一步证明本文蛋白质序列相似性分析方法与序列比对方法ClustalW算法具有一致性,说明本文方法是可靠有效的.

为了更直观显示表4和表5数据的关系,利用相关性分析两种方法得到的距离矩阵,结果如图7所示,图中横坐标为ClustalW算法得到的距离值,纵坐标为本文方法得到的距离值.结果显示,两组数据的相关系数为0.90,可见两种方法的结果具有很强的相关性.

本文进一步地分析两个距离矩阵每一行的相关系数,结果见表6(第2列).为了比较,本文计算了文献[14,21,28]中结果与ClustalW方法结果(表5)的相关系数,结果见表6(第3-5列).观察表6,对于所有物种,本文的结果与ClustalW算法结果的相关系数(第1行)明显高于文献[14,21,28]的结果与ClustalW结果的相关系数,同时,对于每个物种(第2-8行),相关系数同样明显高于文献[14,21,28]结果与ClustalW算法结果的相关系数,对比结果说明本文方法具有明显的优越性.

图7由表4和表5的数据作出散点图

b) β珠蛋白序列

根据表3中12个物种的β珠蛋白数据,氨基酸的映射关系和闵可夫斯基距离公式,计算出这12个β珠蛋白的距离矩阵,结果如表7所示.本文利用ClustalW算法计算这12个蛋白的距离矩阵,结果如表8所示.

观察表7和表8数据可以发现,两个表中,最小的元素分别为27.2(表7)和5.7(表8),表示狒狒与人类的进化距离在这12个物种中是最接近的;观察两表中人类与其他物种的距离(倒数第3列和倒数第2行),除了野马、猪和人类的距离,青蛙,鱼和人类的距离略有差异外,人类与其他物种的距离基本相同.同时观察到两表中鱼、青蛙同其他物种的距离均比较大,从表7和表8显示本文方法结果和ClustalW方法结果基本一致.

图8基于本文方法构建的12个物种的进化树

此外,基于本文方法的结果(表7)构造出进化树如图8所示;基于ClustalW算法的结果(表8),我们构造出进化树如图9所示.对比图8和图9发现,除了野马和猪,鱼和青蛙的位置不同外,其余分支的结构完全相同.

分析本文结果与ClustalW算法结果的相关性,本文以ClustalW算法得到的距离值(表8)为横坐标,以本文方法得到的距离值(表7)为纵坐标,作出散点图如图10所示,从图中可以看出两表中数据呈正相关,此外,我们计算出两个距离矩阵的相关系数为0.96,说明在β珠蛋白数据中,本研究结果同样与ClustalW的结果相关性很强,两种方法的结果具有一致性.

图9基于ClustalW算法结果构建的12个物种的进化树

图10表7和表8的数据的相关性

本文进一步地分析两个距离矩阵每一行的相关系数,见表9.结果表明,除了青蛙和鱼外,其他物种与ClustalW的结果相关系数均达到0.96以上.从9个物种的ND5蛋白和12个物种的β珠蛋白两组数据的相似性分析结果中,因此本文的方法是有效可行的.

表9不同物种与ClustalW结果的相关系数

物种老鼠牛鱼鸡兔狒狒猪野马青蛙人类斑胸

草雀狗

相关

系数0.990.990.870.960.960.970.960.980.310.960.970.97

3结论

本文利用子的碱基位置特征与氨基酸疏水性特征,提出一种新的蛋白质3维图形表示方法,并选取闵可夫斯基距离描述图形的差异性.运用本文方法,分析9个物种ND5蛋白的相似性和12个物种β珠蛋白的相似性,并将相似性分析结果与ClustalW方法结果以及其他文献中方法的结果做比较,在ND5蛋白数据中,本文结果中与ClustalW算法结果的相关系数为0.90;在β珠蛋白数据中,本文结果与ClustalW算法结果的相关系数为0.96.比较结果说明本研究的方法是有效可行的.

参考文献:

[1] Wang J S, Yan M. Numerical Methods in Bioinformatics an Introduction[M]. Beijing: Science Press,2013:1448.

[2] Randic M, Butina D, Zupan J. Novel 2D graphical representation of proteins[J]. Chemical Physics Letters,2006,419(4/5/6):528532.

[3] He P A, Zhang Y P, Yao Y H, et al. The graphical representation of protein sequences based on the physicochemical properties and its applications[J]. Journal of Computational Chemistry,2010,31(11):21362142.

[4] Jeffrey H J. Chaos game representation of gene structure[J]. Nucleic Acids Research,1990,18(8):21632170.

[5] Randic M, Zupan J, Balaban A T. Unique graphical representation of protein sequences based on nucleotide triplet codons[J]. Chemical Physics Letters,2004,397(1):247252.

[6] Li C, Yu X Q, Liu Y, et al. 3D maps and coupling numbers for protein sequences[J]. Physica A: Statistical Mechanics & Its Applications,2009,388(9):19671972.

[7] Yao Y H, Kong F, Dai Q, et al. A sequencesegmented method applied to the similarity analysis of long protein sequence[J]. MATCH Communications in Mathematical and in Computer Chemistry,2013,70(1):431450.

[8] Ma T T, Liu Y X, Dai Q, et al. A graphical representation of protein based on a novel iterated function system[J]. Physica A: Statistical Mechanics and Its Applications,2014,403(6):2128.

[9] Qi Z H, Jin M Z, Li S L, et al. A protein mapping method based on physicochemical properties and dimension reduction[J]. Computers in Biology and Medicine,2015,57:17.

[10] Hamori E, Ruskin J. H curves, a novel method of representation of nucleotide series especially suited for long DNA sequences[J]. Journal of Biological Chemistry,1983,258(2):13181327.

[11] Rahman R S, Rackovsky S. Protein sequence randomness and sequence/structure Corrections[J]. Biophysical Journal,1995,68(4):15311539.

[12] Yu H J, Huang D S. Novel 20D descriptors of protein sequences and it’s applications in similarity analysis[J]. Chemical Physics Letters,2012,531:261266.

[13] Aboel M I, Aboelkhier M M, Abbelwahaabm A. 3D graphical representation of protein sequences and their statistical characterization[J]. Physica A: Statistical Mechanics & Its Applications,2010,389(21):46684676.

[14] Wen J, Zhang Y Y. A 2D graphical representation of protein sequence and its numerical characterization[J]. Chemical Physics Letters,2009,476(46):281286.

[15] Yu C L, Cheng S Y, He R L, et al. Protein map: An alignmentfree sequence comparison method based on various properties of amino acids[J]. Gene,2011,486(12):110118.

[16] Zhao Y, Li X, Qi Z. Novel 2D graphic representation of protein sequence and its application[J]. Journal of Fiber Bioengineering & Informatics,2014,7(1):2333.

[17] Liao B, Liao B Y, Lu X, et al. A novel graphical representation of protein sequences and its application[J]. Journal of Computational Chemistry,2011,32(12):25392544.

[18] Yu J F, Sun X, Wang J H. A novel 2D graphical representation of protein sequence based on individual amino acid[J]. International Journal of Quantum Chemistry,2011,111(12):28352843.

[19] Bai F L, Wang T M. A 2D graphical representation of protein sequences based on nucleotide triplet codons[J]. Chemical Physics Letters,2005,413(4):458462.

[20] Liao B, Liao B Y, Sun X M, et al, A novel method for similarity Analysis and protein subcellular localization prediction[J]. Bioinformatics,2010,26(21):26782683.

[21] He P A. A new graphical representation of similarity/dissimilarity studies of protein sequences[J]. SAR and QSAR in Environmental Research,2010,21(5/6):571580.

[22] He P A, Li D, Zhang Y P, et al. A 3D graphical representation of protein sequences based on the gray code[J]. Journal of Theoretical Biology,2012,304(1):801807.

[23] Feng J, Wang T M. A 3D graphical representation of RNA secondary structures based on chaos game representation[J]. Chemical Physics Letters,2008,454(46):355361.

[24] He P A, Yang J L, Li X F, et al, A novel descriptor for protein similarity analysis[J]. MATCH Communications in Mathematical & in Computer Chemistry,2011,65(2):445458.

[25] Manikandakumar K, Gokulraj K, Muthukumaran S, et al. Graphical representation of protein sequences by CGR: Analysis of pentagon and hexagon structures[J]. Journal of Pharmacy Research,2013,13(6):764771.

[26] Liu Y X, Li D, Lu K B, et al. PH Curve, a graphical representation of protein sequences for similarities analysis[J]. MATCH Communications in Mathematical and in Computer Chemistry,2013,70(1):451466.

[27] He P A, Xu S N, Dai Q, et al. A generalization of CGR representation for analyzing and comparing protein sequences[J]. International Journal of Quantum Chemistry,2016,116(6):476482.

[28] Yao Y H, Yan S J, Han J N, et al. A novel descriptor of protein sequences and its application[J]. Journal of Theoretical Biology,2014,347(1):109117.

[29] Kyte J, Doolittle R F. A simple method for displaying the hydropathic character of a protein[J]. Journal of Molecular Biology,1982,157(1):105132.

蛋白质论文范文结:

关于蛋白质方面的的相关大学硕士和相关本科毕业论文以及相关蛋白质论文开题报告范文和职称论文写作参考文献资料下载。