您的位置: 专家智库 > >

曹艳

作品数:3 被引量:10H指数:1
供职机构:南京农业大学更多>>
发文基金:国家社会科学基金更多>>
相关领域:文化科学自动化与计算机技术更多>>

文献类型

  • 2篇期刊文章
  • 1篇学位论文

领域

  • 3篇文化科学
  • 1篇自动化与计算...

主题

  • 2篇登录
  • 2篇停用词
  • 2篇未登录词
  • 2篇新词
  • 2篇新词识别
  • 2篇词表
  • 1篇汉语
  • 1篇汉语文本

机构

  • 3篇南京农业大学

作者

  • 3篇曹艳
  • 2篇刘竟
  • 2篇杜慧平
  • 2篇侯汉清

传媒

  • 1篇情报科学
  • 1篇中国索引

年份

  • 2篇2008
  • 1篇2007
3 条 记 录,以下是 1-3
排序方式:
汉语文本抄袭识别系统研究
抄袭识别属于文档复制检测技术的一种应用类型,它是提高学术论文质量、净化学术环境的一种重要措施。抄袭识别就是判断某篇给定文档是否抄袭了其他一篇或多篇文档的内容,具体包括完全抄袭、大部分抄袭和少部分抄袭。 本文首先...
曹艳
关键词:汉语文本
文献传递
基于词表和N-gram算法的新词识别实验被引量:8
2007年
目前未登录词问题仍然很大程度上影响着自动标引和信息检索的效率。本文提出了一种选择期刊论文的题名和摘要作为训练语料,利用N-gram算法切分和停用词典等过滤筛选的非专名的新词识别方法。该方法主要分为两步:先进行N元切分,保存关键词候选集并统计词频;然后进行一系列的过滤,主要有词频阈值限定、前停后停词典过滤、相邻词比较、子父串比较、抽词词典和过滤词典的过滤,最后进行人工判别。对实验结果的测评表明这一方法是简便易行的。训练语料可以不用全文,只用题名和摘要;在新词识别上,摘要可以代替题名。
曹艳杜慧平刘竟侯汉清
关键词:未登录词新词识别
基于词表和N-gram算法的新词识别实验被引量:1
2008年
目前未登录词问题仍然很大程度上影响着自动标引和信息检索的效率。本文提出了一种选择期刊论文的题名和摘要作为训练语料,利用N-gram算法切分和停用词典等过滤筛选非专名的新词识别方法。该方法主要分为两步:先进行N元切分,保存关键词候选集并统计词频;然后进行一系列的过滤,主要有词频阈值限定、前停后停词典过滤、相邻词比较、子父串比较、抽词词典和过滤词典的过滤,最后进行人工判别。对实验结果的测评表明这一方法是简便易行的。训练语料可以不用全文,只用题名和摘要;在新词识别上,摘要可以代替题名。
曹艳杜慧平刘竟侯汉清
关键词:未登录词新词识别
共1页<1>
聚类工具0