丁国栋
- 作品数:22 被引量:127H指数:6
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家重点基础研究发展计划国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术理学文化科学更多>>
- 基于统计语言建模的信息检索及相关研究
- 本文对基于统计语言建模(SLM,Statistical Language Modeling)的信息检索方法进行了较为详细的论述,着重阐述了查询似然检索模型的基本思想和原理,并介绍了一些改进的模型,如KL距离检索模型等。在...
- 丁国栋
- 关键词:信息检索统计语言模型查询扩展
- 文献传递
- 大规模网络内容安全控制关键技术与示范系统研究
- 程学旗王丽宏余翔湛丁国栋熊刚舒敏黄文廷贺龙涛刘峰刘振业王勇王东滨李东何慧董永苹谭松波
- 大规模网络内容安全监控示范应用系统包括安全响应管控平台、信息对抗平台、互联网舆情监测系统等三个应用系统。安全响应管控平台能够在网络舆情暴发时,及时将控管指令在全网生效,并结合空路由技术和路由扩散技术将舆情控制在局部的最小...
- 关键词:
- 基于话题特征统计的互联网热点分析技术
- 网络中热点话题发现问题,本文提出了一种基于话题特征统计的互联网热点话题发现方法。该方法首先从文本中提取话题特征,然后对话题特征进行聚类分析,从而发现热点话题特征,再利用检索技术,将热点话题特征对应的话题报文检索出来,形成...
- 段建国丁国栋程学旗
- 关键词:关键词抽取
- 一种基于局部共现的查询扩展方法被引量:61
- 2006年
- 针对信息检索中文档与查询之间的词不匹配问题,本文提出了一种基于局部共现的查询扩展方法LOCOOC。LOCOOC利用词项与所有查询词在局部文档集合中的共现程度来评估扩展词的质量,并整合了词项在语料集中的全局统计信息,使得选取的扩展词与初始查询所表征的主题或概念具有更好的相关性。实验结果表明:与未进行查询扩展时相比,采用LOCOOC方法进行扩展后,平均准确率提高40%以上;与传统的局部反馈方法以及局部上下文分析方法(LCA,Local ContextAnalysis)相比,LOCOOC不仅具有更优的检索性能,而且有着更好的鲁棒性。
- 丁国栋白硕王斌
- 关键词:计算机应用中文信息处理信息检索查询扩展
- 一种网页的正文抽取方法
- 本发明提供一种网页的正文抽取方法,包括下列步骤:1)将为所述网页建立的DOM树中的所有特征节点进行合并段落操作;2)从承载最长段落的节点集合中任选一个节点,从所选节点回溯至所述DOM树的根节点,计算各个节点的父节点及其子...
- 郭岩丁国栋张刚
- 一种网页的正文抽取方法
- 本发明提供一种网页的正文抽取方法,包括下列步骤:1)将为所述网页建立的DOM树中的所有特征节点进行合并段落操作;2)从承载最长段落的节点集合中任选一个节点,从所选节点回溯至所述DOM树的根节点,计算各个节点的父节点及其子...
- 郭岩丁国栋张刚
- 文献传递
- Web超链挖掘:中国境内Web图结构研究被引量:8
- 2005年
- 以网站作为Web图的顶点,以网站之间链接为有向边,研究了中国境内Web图的拓扑特点和宏观结构。试验表明:网站的入度和出度分布同样服从幂级数定律(PowerLaw);境内Web图的连通性明显高于全球的Web图,其最大的强连通分量中的网站数超过50%;在境内Web中,如果两个网站之间存在一条有向路径,则从一个网站漫游到另外一个网站,平均只需点击7.1次,最多只需点击29次。
- 丁国栋王斌白硕
- 关键词:网站链接关系宽度优先搜索
- 文本检索的统计语言建模方法综述被引量:24
- 2006年
- 统计语言建模技术(statisticallanguagemodeling,SLM)已逐渐成为当前语言信息处理的主流技术之一·近几年的研究和实验表明,SLM技术在文本检索领域有着广阔的发展前景和拓展空间·对基于SLM的文本检索方法(SLMTR)进行了综述,重点论述SLMTR的主要方法和关键技术·首先对查询似然检索模型进行形式化的描述;然后详细论述语言模型的估计和数据平滑问题;并讨论了平滑对检索性能的影响;之后简要介绍了对查询似然模型的一些主要的扩展和改进工作;最后的总结部分讨论了SLMTR所面临的一些挑战·
- 丁国栋白硕王斌
- 关键词:信息检索语言模型
- 一种网页信息抽取的系统及方法
- 本发明涉及网页信息抽取的系统和方法,系统包括:模板生成模块,用于从网页集合中选取待自动标注网页,根据用户标注的训练网页将待自动标注网页分类,生成分类的类别的网页模板;网页同质化模块,用于依据网页模板屏蔽待自动标注网页同其...
- 吴博王宇张刚丁国栋程学旗
- 文献传递
- 一种基于动态平衡树的在线索引快速构建方法
- 本文提出了一种基于动态平衡树的在线引更新策略,利用动态平衡树控制索引合并过程,使索引合并总是在大小相近的子索引之间进行,以减少索引合并代价,同时可以调节索引和检索之间的性能平衡。本文方法提供了一个基于合并的在线索引更新框...
- 郭瑞杰程学旗许洪波王斌丁国栋
- 关键词:信息检索
- 文献传递