肖纯
- 作品数:5 被引量:4H指数:1
- 供职机构:哈尔滨医科大学更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:医药卫生生物学更多>>
- 基于真实SNPs数据的仿真方法实现与效果评价
- 2017年
- 目的探讨基于真实单核苷酸多态性(SNPs)数据有效的计算机仿真方法,为探索SNPs与疾病的关联研究,基因-基因交互作用研究提供帮助。方法利用gs2.0软件实现真实SNPs数据的仿真,利用Haploview、Plink、MDR软件对仿真效果进行评价。结果利用gs2.0以中国傣族人群第22号染色体的500、1 000、5 000个SNPs位点为原始数据,分别生成了含有单致病位点和两交互作用致病位点的仿真数据。通过比较发现原始数据与其仿真数据的LD模式基本相似,有接近的r^2值,单致病位点的差异显著性明显,两交互作用致病位点能被MDR识别。结论 gs2.0是一个简单高效的计算机仿真软件,能较好地仿真SNPs的LD模式并能准确设置单致病位点和两交互作用位点用以批量生成SNPs仿真数据。
- 刘芸良肖纯史晓雯刘艳
- 关键词:数据仿真单核苷酸多态性
- 三种SNPs数据仿真方法的效能比较
- 2018年
- 目的比较HAPGEN2、gs 2.0和GWAsimulator2三种方法在仿真单核苷酸多态性(SNPs)数据时的效能差异,为以后使用SNPs数据仿真方法提供指导。方法以真实人群SNPs数据作为原始数据,利用三种方法分别生成仿真数据,通过连锁不平衡模式和最小等位基因频率评价仿真效能,并通过χ~2差异位点评价致病位点的设置效能。结果 HAPGEN2仿真连锁不平衡模式的能力优于gs 2.0和GWAsimulator2,gs 2.0和GWAsimulator2仿真最小等位基因频率的能力近似且均优于HAPGEN2,三种方法均能良好的设置单致病位点。结论三种SNPs数据仿真方法均有优劣,用户可根据实际需求选择合适的仿真方法。
- 刘芸良肖纯史晓雯刘艳
- 关键词:单核苷酸多态性计算机仿真
- 三种统计分析方法在基因表达谱数据中的比较研究
- 2018年
- 目的比较SCAD-支持向量机、支持向量机和弹性网三种方法对基因表达谱数据的变量筛选和预测判别能力。方法根据设置的参数生成不同条件的基因表达谱模拟数据和实际数据,利用FDR、一致性错误率和ROC曲线下面积(AUC值)从三个方面评价三种方法的变量筛选和预测判别能力。结果模拟实验显示在差异变量数不变的情况下,随着差异变量间相关系数的增加,三种方法建立模型的变量筛选和预测判别能力均提高;当差异变量间相关系数不变时,随着差异变量数目的增加,SCAD-支持向量机和弹性网方法的变量筛选和预测判别能力均呈下降趋势,而支持向量机呈现提高趋势。结论 SCAD-支持向量机不仅改善了支持向量机不能直接进行变量筛选的不足同时提高了模型的精度以及判别的准确性。综合来看SCAD-支持向量机的变量筛选和预测判别能力更优,处理变量间有高度相关性的基因表达谱数据时可以获得更高的预测精度和更稳定的模型估计。
- 史晓雯肖纯刘芸良刘艳
- 关键词:ROC曲线下面积
- 候选基因关联研究的统计分析方法
- 2017年
- 随着新一代测序技术的发展及全基因组关联研究(genome-wide association study,GWAS)策略的推广,复杂性疾病基因关联研究涉及的SNP位点逐渐增加,且资料收集的逐渐完善促使描述疾病结局相关的指标增多,使样本信息多元化。
- 肖纯史晓雯刘芸良张奇刘艳
- 关键词:候选基因复杂性疾病测序技术统计量基因序列
- 惩罚logistic回归方法在SNPs数据变量筛选研究中的应用被引量:4
- 2016年
- 目的比较L1正则化、L2正则化和弹性网三种惩罚logistic回归对SNPs数据的变量筛选能力。方法根据所设置的参数生成不同条件的SNPs仿真数据,利用正确率、错误率和正确指数从三个方面评价三种惩罚logistic回归的变量筛选能力。结果正确率表现为L2正则化惩罚logistic回归>弹性网惩罚logistic回归>L1正则化惩罚logistic回归;错误率表现为L2正则化惩罚logistic回归>弹性网惩罚logistic回归>L1正则化惩罚logistic回归;正确指数则表现为弹性网惩罚logistic回归>L1正则化惩罚logistic回归>L2正则化惩罚logistic回归。结论综合来看弹性网的筛选能力更优,弹性网融合L1、L2两种正则化的思想,在高维数据分析中既能保证模型的稀疏性,便于结果的解释,又解决了具有相关性自变量不能同时进入模型的问题。
- 刘匆提李昂门志红姜博肖纯刘艳李贞子
- 关键词:L1正则化