温琪
- 作品数:8 被引量:21H指数:2
- 供职机构:哈尔滨医科大学更多>>
- 发文基金:国家自然科学基金黑龙江省自然科学基金更多>>
- 相关领域:医药卫生自动化与计算机技术更多>>
- 高血压和冠心病的全基因组功能分析
- 目的:对2007年WTCCC公开的Ⅰ期高血压和冠心病的实际SNPs数据进行GO分析和通路分析,从基因功能注释和通路注释两方面探讨两种复杂性疾病的遗传机制。 方法:利用dbSNP数据库的位点信息,计算每个SNP位点到最近...
- 温琪
- 关键词:高血压冠心病单核苷酸多态性基因功能
- 随机森林的并行运算方法及适用条件被引量:2
- 2016年
- 目的探讨随机森林并行运算的实现方法及其适用条件,为基因组学数据分析提供科学参考。方法基于R foreach包编写随机森林并行运算程序,并利用SNPs模拟数据探究其表现。结果在SNPs位点数量为100、500、1 000时,随工作站所占用CPU数量的增多,随机森林并行运算方法的提速效果呈非线性趋势,且位点数量相同但ntree数量不同时速度的提升效果亦不相同;当SNPs位点数量达到5 000时,该方法提速效果较差,10核环境下ntree为500和1 000时几乎无提速效果,即使ntree达到5 000或10 000时提速效果也不超过2倍。结论基于R foreach包的随机森林并行运算方法在SNPs位点数量不是很多(如<1 000)的情况下其提速效果尚可;但由于共享内存等产生的通信开销的问题的存在,当SNPs位点数较多(超过5 000)时,该方法提速效果很差,此时可考虑选择其他分析工具如随机丛林(RJ,Random Jungle)。
- 顾星博温琪史晓雯刘艳
- 关键词:大数据单核苷酸多态性
- 探讨χ~2检验结合FDR筛选致病SNPs位点的适用条件被引量:1
- 2012年
- 目的在单核苷酸多态性(SNPs)数据中探讨不同模拟条件χ2检验结合错误发现率(FDR)筛选SNPs位点的适用条件。方法依据2009年2月发布HapMapⅢ期美国犹他州北欧和西欧后裔人群22号染色体前5 000个SNPs数据,采用HAPGEN2模拟病例对照数据,运用Haploview4.2筛选标签SNPs(TagSNPs),比较不同模拟条件筛选致病SNPs的正确率。结果相对危险度(RR)获取方式无显著差异;3种遗传模型均表现正确率随RR值增大而增高,RR相同时,加性模型正确率最高,显性模型次之,隐性模型最低;加性模型RR>2.2、显性模型RR>4和隐性模型RR>5时,正确率超过60%。结论χ2检验结合FDR在加性模型效果最佳,实际科研工作需依据目标疾病具体情况考虑是否适合χ2检验结合FDR方法。
- 郑娟娟孙远洁李昂温琪佟海龙刘艳赵晓雯
- 关键词:单核苷酸多态性相对危险度
- 基于MAX的生物学通路分析实现
- 2014年
- 目的以WTCCCⅠ期公开发表的高血压SNPs数据作为实际数据,展开基于MAX的生物学通路分析,完成该方法的实现过程,并探讨其优势。方法运用Python语言和PLINK软件对数据进行格式转换,应用MAX方法进行单个SNP位点的关联分析,通过i-GSEA4GWAS网络分析平台进行通路分析,寻找疾病的差异表达生物学通路。结果共筛选出6条差异表达通路,查阅文献发现2条差异表达通路与高血压有直接关系,2条差异表达通路与高血压有间接关系。结论在疾病的遗传模型未知的情况下,基于MAX的生物学通路分析综合考虑了多个遗传模型的信息,是一种高效且稳健的分析方法。
- 温琪李昂佟海龙郑娟娟孙远洁顾星博焦辛妮刘艳
- 关键词:单核苷酸多态性通路
- Rstudio和随机丛林在高维全基因组学数据分析中的应用被引量:2
- 2015年
- 目的结合Rstudio和Random Jungle两款软件的优势,通过远程登录简便、快捷地实现全基因组学数据的分析。方法在服务器端搭建Rstudio Server,封装随机丛林R程序并对英国威康信托病例对照协会(WTCCC)高血压真实数据进行分析,通过Rstudio Sweave动态生成分析结果。结果在客户端即可通过网络浏览器登陆服务器端搭建好的Rstudio Server;数据量较大时,封装后的随机丛林程序在Rstudio Server中运算速度方面相对于R random Forest包优势明显。2001名高血压病例及3004名对照的22条染色体共有490032个SNP位点,根据真实标签通过10次随机丛林过程筛选出稳定排序在前20位的SNPs位点,其Cochron-Armitage检验的P值也有10个排进前11位。结论全基因组学数据的处理会消耗很多的时间和内存,普通计算机根本无法承受,Random Jungle软件的命令行运行方式又不易于数据处理、算法组合或嵌套及结果的再现、可视化,在服务器端搭建Rstudio Server并结合Random Jungle的分析策略可有效地应用于全基因组学数据分析,简化分析过程、提高分析速度和效率、方便实现分析结果的动态输出及再现。
- 顾星博李昂温琪焦辛妮刘艳
- 关键词:全基因组关联分析SNPS
- 单核苷酸多态性数据缺失值填补方法研究被引量:3
- 2014年
- 目的 通过对单核苷酸多态性(SNPs)数据展开缺失值填补影响因素与填补效果的研究,为利用SNPs数据进行基因与疾病的关联研究提供科学依据。方法 以国际人类基因组单体型图计划(Hap Map计划)数据为原始数据,利用HAPGEN2软件,依据原始数据生成SNP基因型模拟数据,人为产生缺失数据并进行缺失值的填补,分析不同条件(4个水平的缺失比例、4个水平的参考数据样本量)的填补错误率。结果 数据缺失比例越小、参考数据样本量越大,填补的错误率越低(样本量50、100、150和200的平均错误率分别为7.01%、5.92%、5.67%和5.26%);2种缺失模式在缺失比例较大时(r^2=0.825),随机缺失填补(平均5.64%)较固定缺失填补(平均9.10%)填补错误率低,而当缺失比例较小时(r^2=0.9),固定位点缺失模式的填补错误率较低(平均4.96%),在各种条件下IMPUTE2的填补错误率为3%~13%。结论 缺失比例、参考数据样本量以及缺失模式对缺失数据填补的准确性有一定影响;对标签SNP数据进行缺失值填补,再进一步分析是一种有效的策略。
- 李昂温琪顾星博焦辛妮佟海龙袁重胜刘艳李康
- 复杂性疾病SNPs数据模拟的实现与效果评价被引量:2
- 2013年
- 目的探讨有效的复杂性疾病单核苷酸多态性(SNPs)数据模拟方法,为疾病发病机理的研究提供帮助。方法运用HAPGEN2软件实现复杂性疾病SNPs数据的模拟,利用GTOOL软件和R语言实现SNPs数据格式的转换,采用LD图以及χ2检验对模拟效果进行评价。结果利用HAPGEN2以JPT+CHB人群的22号染色体的500、1 000、5 000个SNPs位点为参照,分别生成了致病位点个数为3、5、8的模拟数据。模拟数据与相对应的参照数据的LD模式基本相似,致病位点的差异显著性较为明显。结论 HAPGEN2是一种简单有效的SNPs数据模拟软件。
- 孙远洁郑娟娟李昂温琪佟海龙刘艳赵晓雯
- 关键词:复杂性疾病单核苷酸多态性
- 哈尔滨市社区居民精神卫生知识认知及对患者态度的调查及影响因素分析被引量:12
- 2015年
- 目的 了解哈尔滨市社区居民精神卫生知识的知晓情况及对精神疾病患者的态度,分析其影响因素,为进一步制定有针对性的策略提供科学依据。方法 2013年10-12月间采取分阶段抽样方法,随机抽取社区医生、患者家属及普通居民共计720人,就精神卫生知识和对精神疾病患者态度进行问卷调查,比较人群及居住地差异,并分析影响因素。结果 回收有效问卷702份,有效回收率为97.50%;702名社区居民精神卫生知识的总知晓率为73.44%,社区医生知晓率(85.25%)显著高于患者家属(75.03%)和普通居民(72.34%)(P〈0.05),城市居民(74.55%)高于城郊与乡镇居民(70.40%)(P〈0.05);社区居民态度问卷的总得分为(34.26±5.84),不同年龄社区居民态度问卷总得分总体比较差异有统计学意义(P〈0.05),表现为老年人显著低于中年人和青年人(P〈0.05)。563名(78.77%)社区居民对精神疾病患者的态度有较好或包容的程度,城郊及乡镇居民对精神疾病患者态度的包容程度好于城市居民(P〈0.05)。社区居民精神卫生知识的认知程度与对精神疾病患者的态度不存在相关关系(秩相关分析,rs=-0.01420,P=0.7078),在社区居民精神卫生知识认知情况的多因素Logsitic回归模型显示社区医生(OR=2.654,95%CI:1.082~6.508)、对精神疾病患者知悉者(OR=1.956,95%CI:1.373~2.787)、文化程度大专及以上学历者(OR=2.968,95%CI:2.176~4.049)对精神卫生知识的认知程度更好。在社区居民对精神疾病患者态度包容程度的多因素Logsitic回归模型中表现为老年人(OR=0.571,95%CI:0.363~0.900)的态度相对消极,对宣传教育满意者(OR=1.460,95%CI:1.093~1.951)、城郊及乡镇居民(OR=1.383,95%CI:1.008~1.896)的态度较为包容。结论 2013年底哈尔滨市社区居民精神卫生知识的总知晓率与国家精神卫生规划2015年的既定要求(即实现2015年�
- 佟海龙焦辛妮顾星博温琪门志红刘匆提刘艳
- 关键词:精神卫生知识精神疾病知晓率宣传教育