您的位置: 专家智库 > >

国家自然科学基金(61003046)

作品数:4 被引量:20H指数:2
相关作者:李建中刘显敏杨忠胜张岩王宏志更多>>
相关机构:哈尔滨工业大学更多>>
发文基金:国家自然科学基金国家重点基础研究发展计划国家教育部博士点基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 4篇期刊文章
  • 2篇会议论文

领域

  • 6篇自动化与计算...

主题

  • 1篇信息分类
  • 1篇知识库
  • 1篇冗余
  • 1篇树结构
  • 1篇数据库
  • 1篇搜索
  • 1篇搜索算法
  • 1篇索引
  • 1篇推荐系统
  • 1篇权值
  • 1篇字符
  • 1篇字符串
  • 1篇扩展性
  • 1篇剪枝
  • 1篇剪枝策略
  • 1篇函数依赖
  • 1篇RANDOM...
  • 1篇TOP-K
  • 1篇XML
  • 1篇XML数据

机构

  • 6篇哈尔滨工业大...

作者

  • 5篇李建中
  • 3篇王宏志
  • 2篇刘显敏
  • 2篇高宏
  • 1篇张岩
  • 1篇杨忠胜

传媒

  • 2篇计算机研究与...
  • 1篇小型微型计算...
  • 1篇智能计算机与...
  • 1篇第29届中国...

年份

  • 1篇2015
  • 2篇2014
  • 3篇2012
4 条 记 录,以下是 1-6
排序方式:
一种扩展条件函数依赖的发现算法被引量:5
2015年
扩展条件函数依赖(extended conditional functional dependency,eCFD)是一种描述数据一致性的语义规则,是条件函数依赖(conditional functional dependency,CFD)的扩展.相比于CFD,eCFD能够描述更多的模式从而表达更丰富的语义信息.然而,关注eCFD的研究工作并不多.从给定数据中发现eCFD规则是一个重要问题,据笔者所知,目前还没有这方面的工作.该问题的难点在于,给定数据中所有合法的eCFD规则之间存在不一致的情况,且包含大量冗余,而CFD和传统的函数依赖规则并没有这样的问题.为避免不一致,同时尽可能地消除冗余,定义了"强合法eCFD"和"近似无冗余eCFD".基于这些概念给出了eCFD发现问题的形式化定义,并给出了MeCFD算法.利用划分属性的方法,MeCFD首先生成所有的基本eCFD,然后,通过合并基本eCFD来构造"组合eCFD".使用先深序来搜索候选空间,使得MeCFD仅用常数的存储空间来维护数据划分,节省了大量的空间开销,有效的剪枝策略被用来改进MeCFD的性能.真实数据集上的实验结果显示出MeCFD良好的可扩展性以及剪枝策略和优化方法的有效性.
刘显敏李建中
关键词:搜索算法剪枝策略冗余
基于知识库的互联网商品信息分类与推荐系统
基于知识理解的数据挖掘技术在电子商务中可以应用到商品分类和推荐方面.为了弥补传统的基于关键词分类的不足,帮助消费者有效、准确、快速地查询所需信息,系统通过使用Probase概念、实体、属性知识分层模型,把检索出来的具有相...
周小田王宏志郭翔宇胡筱董志鑫李建中高宏
关键词:知识库
文献传递
基于属性模式的实体识别框架被引量:2
2014年
很多领域都面临实体识别问题,但现有解决框架缺乏通用性。提出了一种基于属性模式的领域无关的实体识别框架。属性的模式代表属性与实体的一种关系,将模式分为四种类型分别处理,针对类型特点提出了更为通用的相似度计算方法。系统根据模式类型决定相似度计算策略,使系统具有更强的扩展性。该框架可以有效综合利用各类属性的特点进行实体识别,结果优于一般的基于属性特征或基于实体关系的方法。
何峰权李建中
关键词:扩展性
基于键规则的XML实体抽取方法被引量:11
2014年
XML上实体抽取问题的任务是要从XML数据中抽取出描述现实世界某个物理实体的数据实体.利用XML查询提供实体的表示方法,基于键规则中有关实体的语义信息,给出了求解XML上实体抽取问题的基于键规则的实体抽取(key-based entity extraction,KEE)方法.KEE方法利用查询松弛技术,自动地生成抽取实体的候选查询集合,基于相似性测度,从候选查询中选取适用于抽取实体的查询集合.作为KEE方法的一个具体实现,SharingEE算法利用标准化的查询松弛技术,减少了候选查询中的冗余,利用基于自动机的查询处理技术,在多个候选查询之间共享中间结果,从而减少计算开销.在真实和模拟数据上运行的实验验证了算法的效率和有效性.实验结果表明,KEE方法可以很好地解决实体抽取问题,并可以扩展到大规模数据上.
刘显敏李建中
关键词:XML数据
基于压缩直方图的劣质数据库上相似连接结果大小估计被引量:2
2012年
现代数据管理系统普遍存在劣质数据,影响了数据质量,给数据管理带来了新的挑战.已经有不少管理劣质数据的数据模型,实体关系数据模型就是其中一种,该模型允许劣质数据的存在,并给出衡量数据质量的方法,并且可根据对结果质量的需求给出查询结果.鉴于该模型的特点,传统的估计查询代价的优化方法很难再适用,需要新的代价估计技术.本文提出了一种新的估计连接结果大小的方法.使用加权的最小哈希函数获得某一属性的最小哈希签名,这使得属性具有相同维数,便于利用直方图进行快速估计;然后建立其直方图,最后使用改进的离散余弦变换压缩直方图信息,使用压缩信息直接进行代价估计,这使得即使对于高维数据也能保证低错误率和低存储代价.此外,此方法可以很好的支持动态数据更新,消除周期性重建直方图的时间开销.
张岩杨忠胜王宏志高宏李建中
基于树结构索引的带权值字符串的Top-k查询算法
在一个字符串集合中,通过一些字符串的相似性函数寻找与查询字符串相似的字符串集合被称为字符串的近似查找.这种查找常应用于数据库、信息检索等各个领域.但是在某些特定的情况下,需要考虑字符串在查询中的重要性,即权值.针对这种同...
佟星王宏志李建中高宏
关键词:TOP-K
文献传递
共1页<1>
聚类工具0