您的位置: 专家智库 > >

北京市属高等学校人才强教计划资助项目(PXM2007014224044677)

作品数:6 被引量:160H指数:3
相关作者:施水才吕学强王弘蔚都云程王涛更多>>
相关机构:北京信息科技大学北京拓尔思信息技术股份有限公司更多>>
发文基金:北京市属高等学校人才强教计划资助项目国家高技术研究发展计划国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 7篇会议论文
  • 6篇期刊文章

领域

  • 13篇自动化与计算...

主题

  • 4篇抽取
  • 3篇信息抽取
  • 3篇引擎
  • 3篇随机场
  • 3篇条件随机场
  • 2篇信息处理
  • 2篇搜索
  • 2篇搜索引擎
  • 2篇索引
  • 2篇图像
  • 2篇中文
  • 2篇相似度
  • 2篇函数
  • 1篇多尺度
  • 1篇多特征融合
  • 1篇信息块
  • 1篇样本集
  • 1篇引擎设计
  • 1篇英文
  • 1篇语义

机构

  • 12篇北京信息科技...
  • 5篇北京拓尔思信...
  • 1篇北京拓尔思(...

作者

  • 12篇施水才
  • 5篇肖诗斌
  • 4篇都云程
  • 4篇吕学强
  • 3篇王涛
  • 3篇王弘蔚
  • 2篇李渝勤
  • 1篇乔春庚
  • 1篇刘松彬
  • 1篇周强
  • 1篇马永成
  • 1篇冯少卿
  • 1篇刘莉
  • 1篇江敏
  • 1篇孙丽华
  • 1篇邓金杰
  • 1篇刘坤
  • 1篇吕聚旺
  • 1篇宗萍
  • 1篇胡文博

传媒

  • 3篇现代图书情报...
  • 1篇情报学报
  • 1篇计算机工程与...
  • 1篇中文信息学报

年份

  • 4篇2009
  • 3篇2008
  • 6篇2007
6 条 记 录,以下是 1-10
排序方式:
MySql嵌入式存储引擎的研究和实现
数据库是数据存储和查询的重要的工具,本文介绍了一种在 mysql 数据库中嵌入自定义的存储引擎的方法。如何从查询效率,存储空间利用率,数据增加,删除,修改操作方便和高效等角度,来设计数据存储格式,来具体的编写自己的存储引...
马永成肖诗斌王弘蔚施水才
关键词:存储引擎数据格式
文献传递
基于模板的网页主题信息抽取
快速准确地抽取网页主题信息是影响 Web 应用服务质量的关键。网页模板就是已经做好的网页框架,由模板生成的网页结构布局是基本一致的。本文提出了利用模板技术进行网页主题信息抽取的算法。该方法充分考虑了网页的结构特征,能够明...
冯少卿都云程施水才
关键词:DOM网页样本集信息抽取
文献传递
一种改进的基于《知网》的词语语义相似度计算被引量:124
2008年
中科院刘群的基于《知网》的词语相似度计算是当前比较有代表性的计算词语相似度的方法之一。在测试中我们发现对一些存在对义或反义的词语与同义、近义词语一样具有较高的相似度,一些明显相似的词反而相似度较低,如"美丽"与"贼眉鼠眼"的相似度为0.814 815,与"优雅"的相似度为0.788 360,"深红"与"粉红"的相似度仅为0.074 074,这将不利于进行词语的极性识别。基于文本情感色彩分析的需要,把词语相似度的取值范围规定为[-1,+1],在刘群论文的基础上,进一步考虑了义原的深度信息,并利用《知网》义原间的反义、对义关系和义原的定义信息来计算词语的相似度。在词语极性识别实验中,得到了较好的实验结果:P值为99.07%,R值为99.11%。
江敏肖诗斌王弘蔚施水才
关键词:中文信息处理知网词语相似度
基于多层条件随机场的中文命名实体识别被引量:27
2009年
命名实体识别属于自然语言处理的基础研究领域,是信息抽取、信息检索、机器翻译、组块分析、问答系统等多种自然语言处理技术的重要基础。主要研究中文命名实体中对复杂地名和复杂机构名的识别,提出一种基于多层条件随机场的命名实体识别的方法。对大规模真实语料进行开放测试,两项识别的召回率、准确率和F值分别达到91.95%、89.99%、90.50%和90.07%、88.72%、89.39%。
胡文博都云程吕学强施水才
关键词:条件随机场命名实体识别
基于RSS的分布式博客搜索引擎设计
构建一个基于 RSS 的 P2P 分布式博客搜索引擎。利用 Pastry 协议,实现分布式博客采集系统的数据存储和传输。在各子采集系统上分别建立索引,分散了系统维护庞大索引的重负。实现分布式查询, 提高了查询响应速度。利...
刘莉肖诗斌王涛施水才
关键词:RSSPASTRY分布式搜索引擎
文献传递
句子重述技术在中文文本摘要中的应用被引量:3
2008年
本文提出了一种对中文文本摘要中抽取出的句子进行重述的方法。首先使用基于统计的方法对文本进行特征统计,计算词和句子的权重,摘取出权值较高的句子;然后对这些句子应用一种基于向量相似度计算的算法进行指代消解,同时提出一种新的句子向量相似度的计算方法去除冗余;最后利用启发式规则进行加工,从而得到文本摘要。实验结果显示,系统修改后的文摘具有较好的连贯性和流畅性,与修改之前的文摘相比,文摘质量有明显提高。
周强施水才李渝勤吕学强
关键词:相似度信息处理指代消解
基于多特征融合的图像检索研究
本文针对基于利用单一特征对图像检索的片面性,进行了基于综合颜色和纹理特征的图像检索。仅基于一种特征的方法只能表达图像的部分属性,对图像内容的描述比较片面。颜色特征充分利用了图像的色彩信息,侧重于图像整体信息的描述,纹理特...
邓金杰肖诗斌吕学强程涛
关键词:图像检索纹理特征
文献传递
基于条件随机场的英文地理行政实体识别被引量:5
2009年
采用基于条件随机场的方法,对ACE评测的英文语料中的地理行政类型实体(Geographical Political Enti-ties,GPE)及其子类型进行识别。提出一种从ACE语料中选取的特征集,并根据不同的特征组合对GPE识别的贡献与其它特征集进行比较,实验表明该特征集能取得较高的召回率和准确率。
宗萍施水才王涛吕学强
关键词:条件随机场
指标信息抽取技术的研究
本文研究了一种指标信息抽取技术。其基本思想是,首先人工建立指标知识库。然后,由文本分析器借助指标知识库分忻文本信息,形成指标向量。指标向量包括属性向量和数量词向量两部分。属性向量由属性词、位置、词频组成。数量词向量由数量...
肖诗斌孙丽华王弘尉施水才
关键词:关键词知识库信息抽取
文献传递
基于新型主题信息量化方法的Web主题信息提取研究被引量:1
2008年
针对网页主题信息抽取不够精确的问题,提出一种新型的定义和量化主题信息的方法,即把主题信息分为三种信息形式并对不同形式的信息采用不同的方法进行量化计算。基于上述思想,结合DOM规范和分块思想,在DOM树的基础上提出IB-DOM树,并采用分治思想,先定位到包含主题信息的区域,后过滤噪音信息。实验证明本文提出的方法能够较好地解决主题信息自动提取存在的信息完整性和准确性的矛盾。
吕聚旺都云程王弘蔚施水才
共2页<12>
聚类工具0