国家自然科学基金(31071156)
- 作品数:5 被引量:6H指数:2
- 相关作者:张岩波李治罗艳虹马靖张韶凯更多>>
- 相关机构:山西医科大学更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:生物学医药卫生更多>>
- 基于贝叶斯网潜类模型的高维SNPs分析
- 【目的】采用贝叶斯(Bayesian)网的潜类模型对GAW17高维SNPs数据进行分析,为复杂性状疾病遗传以及基因定位等方面的研究提供新的方法支持。【方法】本研究从GAW17提供的包含697个个体22条常染色体的上万个S...
- 张岩波张韶凯马靖
- 关键词:贝叶斯网单核苷酸多态性
- 文献传递
- 基于隐马尔可夫模型对原核生物编码序列的识别
- 2015年
- 目的探讨隐马尔可夫模型在大肠杆菌编码序列识别中的应用,为生物信息挖掘、致病位点研究提供方法参考。方法对大肠杆菌训练集数据进行训练建模,并对测试序列进行识别,用特异度、灵敏度以及精确度三个指标进行评价。结果利用本试验的方法识别编码序列的灵敏度为73.33%,特异度为67.78%,精确度为70.56%。结论隐马尔可夫模型能很好地模拟离散状态间的转换,适用于识别有状态转移、线性序列的数据。
- 曹红艳马靖李治张岩波
- 关键词:隐马尔可夫模型大肠杆菌
- 基于贝叶斯网潜类模型的高维SNPs分析被引量:3
- 2012年
- 采用贝叶斯(Bayesian)网的潜类模型对GAW17高维SNPs数据进行分析,为复杂性状疾病遗传以及基因定位等方面的研究提供新的方法支持。本研究从GAW17提供的包含697个个体22条常染色体的上万个SNP中,随机挑选出1号染色体上12个基因的29个SNPs作为研究对象。按照累计信息贡献率达到95%的原则,应用贝叶斯网潜变量模型选出C1S11408,C1S3201,C1S1786等15个与X0互信息量大的SNPs位点来对研究人群进行分类与解释。结果表明697个个体总的被分为2个潜在类别,各类别的概率分别为0.68和0.32。对两类人群的疾病分布状况进行分析,结果表明二者不一致,第二个类别人群患病率(38.64%)明显高于第一个类别人群(25.99%)(χ2=11.46,P=0.001)。由此可见,两类人群疾病患病率的差别正是由选出的15个SNPs造成的,从而有理由认为这些SNPs为可疑致病位点,为进一步的研究提供明确的思路。
- 马靖张韶凯张岩波
- 关键词:贝叶斯网单核苷酸多态性
- 对基因组内不同序列分布差异进行量化的探讨
- 2014年
- 目的针对DNA词频分析中序列分布问题,探讨对基因组内不同序列的分布差异进行量化的可行性。方法该研究采用数值模拟的方法对Kolmogorov-Smirnov检验的统计量和累积概率曲线下图形的图心进行了比较。结果随着样本含量的增加,两个指标的离散趋势逐渐减小,但其集中趋势并没有受到明显影响,且不同的分布集中于不同的位置;当样本含量为100时,所能判别的最小统计量差异约为0.1,图心差异约为0.02;使用统计量指标时,需采用两个基准分布才能将5个待测分布分开,而图心指标可以直接将5个待测分布分开。结论两个指标都可以看作分布差异的量化指标,但在大多数情况下样本含量应该大于100;当需要在同一坐标系表示不同分布时,图心可能是一个较好的选择。
- 李治崔跃华张岩波
- 关键词:基因组序列数值模拟
- 非正态验证性因子分析在基因整体效应中的应用被引量:2
- 2013年
- 针对SNPs数据不服从正态分布的情况,拟采用S-B测度调整估计方法拟合验证性因子模型,进行SNPs整体效应和关联性分析。用GAW17提供的SNPs数据进行实例分析。本研究随机选取2号染色体上,分布在6个基因之中的13个SNPs作为研究对象,对选取的6个基因做潜变量得分,然后对基因和疾病感染做检验。结果显示:χ2/df最大似然估计方法的卡方自由度比为3.59,S-B测度调整估计方法的卡方自由度比χ2/df为2.89,最大似然估计方法的RMSEA为0.061,S-B测度调整估计方法的RMSEA为0.052。6个基因对该感染都有影响.由此得出结论,在处理SNPs数据时,使用S-B测度调整估计能得到更好的拟合模型。可以推测这6个基因下的13个SNP位点可能是感染的致病位点。
- 刘小琴马瑞罗艳虹李治张春森张岩波
- 关键词:单核苷酸多态性最大似然估计验证性因子分析
- 结构方程混合模型在SNP分析中的应用被引量:1
- 2013年
- 采用结构方程混合模型(SEMM)对实际SNP数据进行分析,为遗传统计学提供一种新的有效的分析方法。本研究的数据是由GAW17提供的,包含697个个体的22条常染色体的上万个SNP和根据这些SNP所模拟的697个个体的性状特点。随机挑选了1号染色体上的4个SNP和3个定量性状作为研究变量,分别进行潜在类别分析和结构方程混合模型分析。根据4个SNP数据,人群被分为3个潜在类别,概率分别为0.53,0.34,0.13。潜在类别1、2和3中的因子均值Q分别为-4.029、-2.052和0,潜在类别1、2的因子均值均低于3(<0.001)。研究表明:结构方程混合模型(SEMM)综合了结构方程模型和潜在类别模型的思想,形成了自己的优势,可用于处理同时包含分类潜变量和连续潜变量的数据。
- 杨圆圆贾志杰李治罗艳虹张岩波