卫冰洁
- 作品数:10 被引量:33H指数:3
- 供职机构:国家互联网应急中心更多>>
- 发文基金:中国科学院战略性先导科技专项国家科技支撑计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于文档序号处理的倒排索引表示方法及系统
- 本发明提供了一种基于文档序号处理的倒排索引表示方法及系统,其中方法包括:步骤1.将倒排记录表按文档序号升序或降序排列,获得排序后的倒排记录表,从排序后的倒排记录表提取多个文档序列;步骤2.计算所述多个文档序列的序列长度,...
- 史亮王斌李鹏李锐卫冰洁张帅
- 文献传递
- 用于对倒排索引进行压缩的文档序号重排方法及其系统
- 本发明公开了用于对倒排索引进行压缩的文档序号重排方法及其系统,该方法包括:步骤1,对已经分配好文档序号的文档进行词语划分得到词项,对所述词项按照其在所述文档中的出现频率进行排列,得到第一顺序的词项;步骤2,利用所述第一顺...
- 史亮王斌卫冰洁张帅张冠元
- 文献传递
- 网页信息查询方法及其系统
- 本发明涉及网页信息查询方法及其系统,方法包括:步骤1,预设查询分类的类别和分类依据的参考量,根据所述类别和所述参考量建立分类器;步骤2,输入查询词,搜索引擎依据输入的查询词进行查询,获得查询结果网页;步骤3,所述分类器对...
- 卫冰洁李亚楠王斌张森
- 文献传递
- 微博检索的研究进展被引量:2
- 2015年
- 随着微博的快速发展,微博检索已经成为近年来研究领域的热点之一。该文首先以TREC Microblog数据为基础,从分析微博文档和微博查询两方面出发,得出微博检索与传统文本检索之间的两点不同:一是微博文档相较于网页具有很多独有的特征;二是微博查询属于时间敏感查询,即在排序时除了考虑文本的语义相似度,还需要考虑时间因素,将这类方法统称为时间感知的检索技术。这两点差异使得已有的信息检索技术不能满足微博搜索的需求。该文主要介绍了近年来这两方面的相关研究:首先描述了微博本身的多种特征以及基于这些特征提出的检索方法;然后以传统信息检索过程为主线,分别介绍了将时间信息用于文本表示、文档先验、查询扩展三方面的排序模型,最后总结了已有工作并且对未来研究内容进行了展望。
- 卫冰洁王斌张帅李鹏
- 关键词:时间信息文本表示查询扩展
- 用于对倒排索引进行压缩的文档序号重排方法及其系统
- 本发明公开了用于对倒排索引进行压缩的文档序号重排方法及其系统,该方法包括:步骤1,对已经分配好文档序号的文档进行词语划分得到词项,对所述词项按照其在所述文档中的出现频率进行排列,得到第一顺序的词项;步骤2,利用所述第一顺...
- 史亮王斌卫冰洁张帅张冠元
- 文献传递
- 一种融合聚类和时间信息的微博排序新方法被引量:8
- 2015年
- 随着微博的快速发展,微博检索已经成为近年来研究领域的热点之一。微博检索与传统文本检索在两个方面明显不同:一是微博具有自己的特点,表现在文本短和内容中具有主题概括词(称为Hashtag);二是微博排序中除了考虑文本和语义相似度,还需考虑时间信息。根据这两点区别,该文在统计语言模型的基础上,使用聚类进行文本扩展,并将Hashtag信息运用到聚类过程中。同时,因为微博数据集中具有Hashtag的微博个数不超过13%,针对这一现象,该文还提出了一种扩展微博Hashtag的方法,最终提出了基于聚类的三个模型。然后通过定义文档先验将时间信息加入到提出的三个检索模型中,得到融入聚类和时间信息的三个模型。最后基于TREC Microblog数据的实验结果证明,融合聚类信息和时间信息的模型在MAP和P@30上有明显提高,分别提高7.1%和11.6%。
- 卫冰洁史亮王斌
- 关键词:聚类语言模型
- 面向微博搜索的时间感知的混合语言模型被引量:12
- 2014年
- 已有研究表明,时间是影响信息检索特别是微博检索的重要因素.现有的代表性工作是将时间信息作为文档先验融入统计语言检索模型,目前主要有跟查询无关和跟查询有关两种做法.这两种做法得到的模型均基于"时间越新文档越重要"这个简单假设.然而,对实际数据集进行分析发现,大多数微博查询的大部分相关文档并没有出现在最新时刻,因此上述假设并不成立.文中从这一点出发,定义这些相关文档集中出现的高峰点为热门时刻(Hot Time),并提出新假设"越靠近热门时刻,文档越重要".基于该假设,文中提出了基于热门时刻的4个系列模型(HTLMs).在此基础上,将查询无关模型看作是文档的背景时间信息而将查询有关模型看作是文档的独立时间信息,由此引入平滑思想提出混合的时间模型(MTLM).基于TREC Microblog数据的实验结果表明,HTLM模型优于现有的工作,而混合模型项对于单一模型会有进一步的提高.
- 卫冰洁王斌
- 关键词:语言模型信息检索社交网络
- 面向微博搜索的时间敏感的排序学习方法被引量:2
- 2015年
- 近年来微博检索已经成为信息检索领域的研究热点。相关的研究表明,微博检索具有时间敏感性。已有工作根据不同的时间敏感性假设,例如,时间越新文档越相关,或者时间越接近热点时刻文档越相关,得到多种不同的检索模型,都在一定程度上提高了检索效果。但是这些假设主要来自于观察,是一种直观简化的假设,仅能从某个方面反映时间因素影响微博排序的规律。该文验证了微博检索具有复杂的时间敏感特性,直观的简化假设并不能准确地描述这种特性。在此基础上提出了一个利用微博的时间特征和文本特征,通过机器学习的方式来构建一个针对时间敏感的微博检索的排序学习模型(TLTR)。在时间特征上,考察了查询相关的全局时间特征以及查询-文档对的局部时间特征。在TREC Microblog Track 2011 2012数据集上的实验结果表明,TLTR模型优于现有的其他时间敏感的微博排序方法。
- 王书鑫卫冰洁鲁骁王斌
- 网页信息查询方法及其系统
- 本发明涉及网页信息查询方法及其系统,方法包括:步骤1,预设查询分类的类别和分类依据的参考量,根据所述类别和所述参考量建立分类器;步骤2,输入查询词,搜索引擎依据输入的查询词进行查询,获得查询结果网页;步骤3,所述分类器对...
- 卫冰洁李亚楠王斌张森
- 文献传递
- 匿名通信系统不可观测性度量方法被引量:13
- 2015年
- 匿名通信技术作为一种主要的隐私增强技术被广泛应用于互联网的各个方面,然而传统的匿名通信系统很容易被监视、检测.因此,国内外研究者一直致力于改进匿名通信系统的不可观测属性,以防范网络审查和监视.然而,如何量化评估这些协议的不可观测程度则几乎没有相关的研究.针对匿名通信系统提出一种基于相对熵的不可观测性度量方法,该方法从敌手的威胁模型出发,将匿名通信系统的输入、输出状态映射到一个交互式图灵机,并在此基础之上提出一个基于相对熵的不可观测性度量框架,该框架能够有效地度量匿名通信系统的不可观测程度.此外,将它应用于TOR匿名通信系统的传输层插件的度量,实验结果表明,该方法能够有效地度量匿名通信系统的不可观测性.
- 谭庆丰时金桥方滨兴郭莉张文涛王学宾卫冰洁
- 关键词:匿名通信相对熵隐私保护