目的研究不同缺失率、不同缺失机制下,MICE(multivariate imputation by chained equations)多重填补的效果,探讨该填补方法的适用情况。方法依托某现况调查的完全数据,使用R软件构造不同缺失率、不同缺失机制的缺失数据。计算列表删除和MICE多重填补后分析结果的标准偏倚,并进行比较。单独对分类变量计算多重填补后的平均错分率。结果在单变量缺失率分别为10%、20%和30%的随机缺失三种情况下,MICE多重填补表现优良;其他模拟情况下,MICE多重填补相比于列表删除并未表现出明显的优势。对于分类变量,MICE填补后的平均错分率均超过60%。结论对于随机缺失数据,且单变量缺失率不超过30%时,建议采用MICE多重填补进行处理;但对于资料中的分类变量,不建议直接引用MICE填补后的具体数值。
全基因组关联研究(genome-wide association study,GWAS)已成功识别出众多与复杂疾病/性状显著相关的单核苷酸多态性位点(single nucleotide polymorphisms,SNPs)[1-2]。然而,研究表明高达90%的GWAS关联位点分布在基因间区或基因非编码区域,其遗传功能和致病机制尚不明确,往往难以被实验验证,为后续生物学机制解释和临床转化带来了巨大挑战[1-3]。同时,GWAS所采用的从基因组直接跨越到疾病终点的关联分析策略,忽略了从遗传变异到疾病的连续生物过程,不利于从多组学角度解释复杂疾病机制,构筑从遗传变异经分子标记到疾病的完整链条,需吸纳多层面组学标记信息。近年来,高通量组学测序技术的成熟发展与检测成本的大幅降低,使得在群体水平获取多层面跨组学标记成为可能。为此,对多组学数据进行跨越式交叉整合,识别能够介导“SNP关联位点→复杂疾病”效应的潜在组学标记,打开遗传变异到疾病间的黑盒子,已成为后GWAS时代的研究热点[4-5]。