曹艳
- 作品数:3 被引量:10H指数:1
- 供职机构:南京农业大学更多>>
- 发文基金:国家社会科学基金更多>>
- 相关领域:文化科学自动化与计算机技术更多>>
- 汉语文本抄袭识别系统研究
- 抄袭识别属于文档复制检测技术的一种应用类型,它是提高学术论文质量、净化学术环境的一种重要措施。抄袭识别就是判断某篇给定文档是否抄袭了其他一篇或多篇文档的内容,具体包括完全抄袭、大部分抄袭和少部分抄袭。
本文首先...
- 曹艳
- 关键词:汉语文本
- 文献传递
- 基于词表和N-gram算法的新词识别实验被引量:8
- 2007年
- 目前未登录词问题仍然很大程度上影响着自动标引和信息检索的效率。本文提出了一种选择期刊论文的题名和摘要作为训练语料,利用N-gram算法切分和停用词典等过滤筛选的非专名的新词识别方法。该方法主要分为两步:先进行N元切分,保存关键词候选集并统计词频;然后进行一系列的过滤,主要有词频阈值限定、前停后停词典过滤、相邻词比较、子父串比较、抽词词典和过滤词典的过滤,最后进行人工判别。对实验结果的测评表明这一方法是简便易行的。训练语料可以不用全文,只用题名和摘要;在新词识别上,摘要可以代替题名。
- 曹艳杜慧平刘竟侯汉清
- 关键词:未登录词新词识别
- 基于词表和N-gram算法的新词识别实验被引量:1
- 2008年
- 目前未登录词问题仍然很大程度上影响着自动标引和信息检索的效率。本文提出了一种选择期刊论文的题名和摘要作为训练语料,利用N-gram算法切分和停用词典等过滤筛选非专名的新词识别方法。该方法主要分为两步:先进行N元切分,保存关键词候选集并统计词频;然后进行一系列的过滤,主要有词频阈值限定、前停后停词典过滤、相邻词比较、子父串比较、抽词词典和过滤词典的过滤,最后进行人工判别。对实验结果的测评表明这一方法是简便易行的。训练语料可以不用全文,只用题名和摘要;在新词识别上,摘要可以代替题名。
- 曹艳杜慧平刘竟侯汉清
- 关键词:未登录词新词识别