徐恒宇
- 作品数:3 被引量:9H指数:1
- 供职机构:东北大学信息科学与工程学院更多>>
- 发文基金:国家自然科学基金高等学校优秀青年教师教学科研奖励计划更多>>
- 相关领域:自动化与计算机技术生物学更多>>
- 基于二分频率变换的序列相似性查询处理技术被引量:8
- 2006年
- 作为基因功能预测的主要手段,序列相似性查询技术是生物信息学领域的研究热点.基因序列和结构的相似性往往决定了基因功能的相似性,因此可以通过基因序列的相似性查找来预测新基因的功能.分析了MRS索引中频率变化和小波变换等相关技术,讨论了它们的缺点和不足,提出了一种基于二分频率变换2-PFT的序列相似性查询处理技术.首先,设计了二分频率变换和相应的距离函数,使得系统较之频率变换和小波变换具有更高的过滤能力,极大地提高了系统的性能;其次,解决了处理任意长度查询的问题.理论证明和实验结果均表明,2-PFT系统的性能远远优于MRS系统.
- 王国仁葛健徐恒宇郑若石
- 关键词:范围查询生物信息学
- Tandem repeat查找方法比较被引量:1
- 2005年
- Tandemrepeat在基因组成和进化中起到非常重要的作用,查找和分析Tandemrepeat已经成为当前生物信息学的一个前沿领域和研究焦点。目前在这一研究领域存在多类解决方法,主要有基于LZ分解技术的方法和最近兴起的基于后缀树索引的方法。本文选取了两种时间复杂度达到O(nlogn)数量级的代表性的方法,对这两种方法进行了全面的综述,并对它们的性能进行了系统的比较和分析。
- 徐恒宇王镝王国仁郑若石
- 关键词:TANDEMREPEAT后缀树基因组成分解技术数量级后缀树
- CMRS:聚类的多解析度字符串索引结构
- 2006年
- 随着基因测序技术和人类基因组计划的发展,从大量的生物数据中寻找相似的序列就越来越成为当前研究的热点问题.本文提出了一种聚类的多解析度字符串索引结构,用于解决生物序列的相似性查询问题.首先,以较小容量的MBR(最小绑定矩形)构造基因序列的多解析度字符串索引结构,然后通过对MBR的聚类以及保序技术的应用,减小索引中MBR的平均体积,从而增加了查询向量到索引的空间距离,提高了索引的过滤能力.还给出了一种新的后处理方法,通过大量的减少编辑距离的计算,提高索引的性能.文中给出了该索引结构并详细介绍了索引的相关算法.实验表明,该索引结构是一种有效的处理生物数据的相似性查询的索引结构.
- 郑若石王镝徐恒宇王国仁陈白尘
- 关键词:K近邻查询生物信息学