您的位置: 专家智库 > >

国家自然科学基金(69705005)

作品数:4 被引量:246H指数:4
相关作者:孙茂松邹嘉彦黄昌宁周强更多>>
相关机构:清华大学香港城市大学更多>>
发文基金:国家自然科学基金国家重点基础研究发展计划中国博士后科学基金更多>>
相关领域:自动化与计算机技术语言文字更多>>

文献类型

  • 4篇中文期刊文章

领域

  • 3篇自动化与计算...
  • 1篇语言文字

主题

  • 4篇汉语
  • 2篇信息处理
  • 2篇语词
  • 2篇语言处理
  • 2篇中文
  • 2篇中文信息
  • 2篇中文信息处理
  • 2篇自然语言
  • 2篇自然语言处理
  • 2篇汉语词
  • 2篇汉语词类
  • 2篇词类
  • 1篇短语
  • 1篇隐MARKO...
  • 1篇隐马氏模型
  • 1篇语言资源
  • 1篇生词
  • 1篇生词处理
  • 1篇歧义
  • 1篇自动分词

机构

  • 4篇清华大学
  • 3篇香港城市大学

作者

  • 4篇孙茂松
  • 3篇邹嘉彦
  • 1篇周强
  • 1篇黄昌宁

传媒

  • 1篇当代语言学
  • 1篇清华大学学报...
  • 1篇计算机学报
  • 1篇软件学报

年份

  • 1篇2001
  • 3篇2000
4 条 记 录,以下是 1-4
排序方式:
汉语最长名词短语的自动识别被引量:61
2000年
通过对包含 5573个汉语句子的语料文本中的最长名词短语的分布特点的统计分析 ,提出了两种有效的汉语最长名词短语自动识别算法 :基于边界分布概率的识别算法和基于内部结构组合的识别算法 .实验结果显示 ,后者的识别正确率和召回率分别达到了 85.4 %和 82 .3% ,取得了较好的自动识别效果 .关键词 最长名词短语 ,边界识别 ,句法分析 .
周强孙茂松黄昌宁
关键词:自然语言处理汉语自动识别
基于k-近似的汉语词类自动判定被引量:16
2000年
生词处理在面向大规模真实文本的自然语言处理各项应用中占有重要位置 .词类自动判定就是对词类未知的生词由机器自动赋予一个合适的词类标记 .文中提出了一种基于 k-近似的词类自动判定算法 ,并在一个 1亿字汉语语料库及一个 6 0万字经过人工分词和词类标注的汉语熟语料库的支持下 ,构造了相应实验 .实验结果初步显示 ,本算法对汉语开放词类——名词、动词、形容词的词类自动判定平均正确率分别为 99.2 1%、84.73%、70 .6 7% 。
孙茂松左正平邹嘉彦
关键词:生词处理自然语言处理汉语
基于隐Markov模型的汉语词类自动标注的实验研究被引量:16
2000年
汉语词类自动标注技术在中文信息处理现实应用中占据着十分重要的位置。论文在经过人工分词和词类标注的大规模汉语语料库的支持下 ,通过一系列对比实验 ,对基于隐 Markov模型的汉语词类自动标注算法进行了系统的考察 ,并得出结论 :1Bigram模型的“性能价格比”较 Tri-gram模型更令人满意 ;2以 7万词次左右的标注语料库训练 Bigram模型即已基本够用 (此时 ,兼类词词类标注正确率及文本词类标注正确率分别可达 93%和 97%以上 ) ;3Bi-gram模型对不同领域具有一定的适应性。这些结论对设计实用型汉语词类自动标注系统具有指导意义。
孙茂松卢红娜邹嘉彦
关键词:中文信息处理汉语词类隐马氏模型
汉语自动分词研究评述被引量:158
2001年
本文首先阐述了汉语自动分词研究的现实性和可能性,接着围绕该研究中的三个基本问题(切分歧义消解、未登录词处理和语言资源建设)展开了重点讨论,并扼要评介了十几年来产生的各种方法。最后就这个领域未来的研究要点发表了一些个人意见。
孙茂松邹嘉彦
关键词:汉语自动分词中文信息处理语言资源歧义
共1页<1>
聚类工具0