您的位置: 专家智库 > >

程冲

作品数:5 被引量:37H指数:4
供职机构:南京农业大学信息科学技术学院更多>>
相关领域:文化科学自动化与计算机技术更多>>

文献类型

  • 4篇期刊文章
  • 1篇学位论文

领域

  • 3篇文化科学
  • 2篇自动化与计算...

主题

  • 3篇登录
  • 3篇未登录词
  • 3篇汉语分词
  • 3篇分词
  • 2篇自适
  • 2篇自适应
  • 2篇未登录词识别
  • 1篇新闻
  • 1篇新闻网
  • 1篇新闻网页
  • 1篇信息检索
  • 1篇正则
  • 1篇正则表达式
  • 1篇知识发现
  • 1篇中文文献
  • 1篇自动分词
  • 1篇网页
  • 1篇新词识别
  • 1篇交集型
  • 1篇交集型歧义

机构

  • 5篇南京农业大学

作者

  • 5篇程冲
  • 4篇黄水清
  • 1篇李志燕

传媒

  • 1篇情报学报
  • 1篇现代图书情报...
  • 1篇情报理论与实...
  • 1篇农业图书情报...

年份

  • 1篇2009
  • 1篇2008
  • 1篇2007
  • 1篇2006
  • 1篇2005
5 条 记 录,以下是 1-5
排序方式:
利用正则表达式解析新闻网页的算法研究被引量:12
2005年
分析了新闻网页的结构特征,提出了一种利用正则表达式来解析新闻网页的算法,避开了网页清洗算法不易实现的缺点,并对该算法的速度和准确性进行了测评,给出了测评结果。
程冲黄水清
关键词:新闻网页正则表达式
信息检索用汉语分词与未登录词识别技术研究
汉语分词是中文信息处理中最基础的部分。信息检索用汉语分词要求分词算法具备一定的歧义识别与未登录词识别功能。 本文深入研究了未登录词识别技术,根据人在阅读时识别新词的思维过程,提出了一种新的未登录词识别算法,其中...
程冲
关键词:信息检索汉语分词未登录词识别
文献传递
自适应分词算法中的未登录词识别技术研究被引量:6
2009年
深入研究了未登录词识别技术,并提出了一种新的未登录词识别算法,包括其中的数量词识别规则、边界单字规则、虚字辅助规则、未登录词记忆识别规则以及左右方探测法选取未登录词规则等,使得算法在不依赖大型语料库的前提下可以有效地识别多种领域中各种类型的未登录词。同时,算法通过对绝大部分的交集歧义的识别有效地解决了识别未登录词时导致的新的切分歧义的问题。在网络时文的开放性测试中,分词算法的分词准确率约为90.1%,未登录词识别的准确率、召回率分别为91.2%和94.7%。
程冲黄水清
关键词:汉语分词未登录词识别交集型歧义
基于既定词表的自适应汉语分词技术研究被引量:9
2006年
提出一种汉语分词算法,在给定的分词词表的基础上进行汉语分词时,不但能成功切分出分词词表中已有的词,而且能同时自动识别出分词词表中没有的词,即未登录词。与逆向最长匹配法以及其他未登录词识别算法进行的测试比较表明,该分词算法可以有效地解决大多数未登录词的识别问题,并且能减少分词错误,同时对分词算法的效率基本没有影响。
黄水清程冲
关键词:自动分词新词识别未登录词
开放式非相关文献知识发现方法在中文文献中的验证被引量:9
2008年
以中国期刊网医药卫生大类的数据为测试集,根据Swanson基于非相关文献的知识发现方法中的开放式知识发现算法,自行编写了相关软件,在中文科技文献中重现了"偏头痛/镁"这对概念的知识发现过程,验证了该方法在中文文献中同样可行。
黄水清程冲李志燕
关键词:知识发现非相关文献
共1页<1>
聚类工具0