张香玲
- 作品数:4 被引量:7H指数:1
- 供职机构:中国人民大学更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于随机游走的实体类型补全方法被引量:1
- 2017年
- 伴随着大数据的大量涌现以及开放链接数据(LOD)等项目的开展,语义网知识库的数量激增,语义网知识库正在引起学术界和工业界越来越多的关注,在信息检索系统中起着重要的作用,如实体搜索和问答系统等.实体类型信息在信息检索中扮演着重要的角色,例如,查询"汤姆·汉克斯所出演的电影",该查询限定了返回的实体类型是"电影",这对提高查询结果的精度具有重要作用.然而,知识库中实体类型信息的缺失是十分严重的,影响了知识库在信息检索等领域中使用的正确性和广泛性.据统计,在DBpedia2014中,8%的实体没有任何类型信息,28%的实体只有高度抽象的类型信息(比如类型为"Thing"),因此对于实体类型补全的研究尤其是实体细粒度类型的补全是十分重要的.目前已有的方法包括基于概率模型和表示学习两类.以基于概率模型的SDType算法为例.首先,SDType为每个谓词计算对各个类型的区分能力得分,然后,在为实体做类型补全时,累加该实体所具有的谓词对各个类型的得分.此类方法没有考虑谓词与谓词之间的相互增强作用,在存在知识缺失的情况下会影响补全效果.以表示学习的类型补全方法TransE为例,此方法对于简单的关系(1-1的关系)补全是可以的,但是对于补全实体类型这种复杂的关系效果并不理想,另外,表示学习的训练集尤其是负例难以获得.由于模型需要学习大量的参数,在大数据量的背景下,性能也是一个问题.文中提出一种基于谓词-类型推理图的随机游走方法来补全缺失的实体类型.首先对知识库中已有知识进行统计,包括具有某个谓词的实体数目、属于某个类型的实体数目以及属于某个类型并且具有某个谓词的实体数目.其次,基于得到的统计信息构建结点由谓词和类型组成的有向推理图,推理图的边包括谓词-谓词和谓词-类型两种.在构建推理图时,作者考
- 张香玲陈跃国毛文祥荣垂田杜小勇
- 关键词:知识库图模型随机游走大数据
- 实体搜索综述被引量:6
- 2017年
- 与传统的以网页页面集合的方式呈现搜索结果不同,实体搜索的结果是实体或实体集合,其优点是无需用户在纷杂的网页里面进行二次查找,更能提升用户的搜索体验.实体搜索的任务可以分为相关实体搜索和相似实体搜索.对近年来这两类任务的实体搜索技术进行综述.首先给出了实体搜索的形式化定义,并介绍了常用的评测指标;然后,对两种不同形式的实体搜索任务在两类数据源(非结构化数据集和结构化数据集)上的主要研究方法进行了详细的阐述和对比;最后,对未来的研究内容和发展方向进行了探讨和展望.
- 张香玲陈跃国马登豪陈峻杜小勇
- 关键词:知识图谱
- 实体集合扩展方法
- 本发明提供一种实体集合扩展方法,该方法包括:获取用户输入的种子实体集合,根据种子实体集合中每个种子实体的实体名,在RDF知识库中确定每个种子实体对应的属性信息;根据每个种子实体对应的属性信息,确定种子实体集合对应的相同属...
- 陈跃国杜小勇张香玲陈峻刘德海
- 文献传递
- 实体集合扩展方法
- 本发明提供一种实体集合扩展方法,该方法包括:获取用户输入的种子实体集合,根据种子实体集合中每个种子实体的实体名,在RDF知识库中确定每个种子实体对应的属性信息;根据每个种子实体对应的属性信息,确定种子实体集合对应的相同属...
- 陈跃国杜小勇张香玲陈峻刘德海
- 文献传递