王普
- 作品数:2 被引量:1H指数:1
- 供职机构:中国科学院深圳先进技术研究院更多>>
- 发文基金:国家高技术研究发展计划更多>>
- 相关领域:生物学更多>>
- 大规模基因组重复序列识别与分类研究进展被引量:1
- 2017年
- 重复序列在基因组中普遍存在,大量实验证实其在生物进化过程中起着重要作用。目前,重复序列的发现与识别技术已经成为基因组学的研究热点,文章分类总结了有关这方面的研究进展,并对相关工具的功能特点进行了简要分析,同时对重复序列发展趋势进行了总结和展望。
- 葛瑞泉王普王普蔡云鹏
- 关键词:转座子长末端重复序列
- 宏基因组中可移动序列的精确检测问题研究
- 2016年
- 基因组组装是宏基因组分析的主要挑战之一。通常假设所有测序序列均来源于同一个基因组,微生物中非常活跃的可移动元件给这个前提假设提出了重大质疑。文章将该质疑抽象为可移动元件与宿主染色体之间的二分类问题,准确的二分类性能将进一步促进宏基因组学方面的研究。基于宏基因组测序数据的数值化特征,详细考察特征选择算法Relief F、卡方检验和Fisher判别t检验,并结合分类模型逻辑回归、极限学习机、支持向量机和随机森林,验证最优可移动元件检测模型的性能。实验结果表明,Relief F特征选择算法和随机森林分类算法的融合模型,使用100个特征即可正确分类95%以上的宏基因组测序数据,优于使用全部的690个特征。
- 彭超王普葛瑞泉周丰丰
- 关键词:数据挖掘