您的位置: 专家智库 > >

肖云

作品数:2 被引量:44H指数:1
供职机构:清华大学更多>>
发文基金:国家重点基础研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇期刊文章
  • 1篇学位论文

领域

  • 2篇自动化与计算...

主题

  • 2篇语言处理
  • 2篇中文
  • 2篇自动分词
  • 2篇自然语言
  • 2篇自然语言处理
  • 2篇汉语自动分词
  • 2篇分词
  • 1篇信息处理
  • 1篇上下文
  • 1篇上下文信息
  • 1篇歧义
  • 1篇歧义消解
  • 1篇中文分词
  • 1篇中文分词系统
  • 1篇中文信息
  • 1篇中文信息处理
  • 1篇组合型歧义
  • 1篇分词系统

机构

  • 2篇清华大学
  • 1篇香港城市大学

作者

  • 2篇肖云
  • 1篇邹嘉彦
  • 1篇孙茂松

传媒

  • 1篇计算机工程与...

年份

  • 2篇2001
2 条 记 录,以下是 1-2
排序方式:
利用上下文信息解决汉语自动分词中的组合型歧义被引量:43
2001年
组合型歧义切分字段一直是汉语自动分词研究中的一个难点。该文将之视为与WordSenseDisambiguation(WSD)相等价的问题。文章借鉴了WSD研究中广泛使用的向量空间法,选取了20个典型的组合型歧义进行了详尽讨论。提出了根据它们的分布“分而治之”的策略,继而根据实验确定了与特征矩阵相关联的上下文窗口大小、窗口位置区分、权值估计等要素,并且针对数据稀疏问题,利用词的语义代码信息对特征矩阵进行了降维处理,取得了较好的效果。笔者相信,这个模型对组合型歧义切分字段的排歧具有一般性。
肖云孙茂松邹嘉彦
关键词:自然语言处理汉语自动分词中文信息处理
汉语自动分词中组合型歧义消解策略初探
该文首先在大规模语料库中统计出所有呈现两种切分形式的歧义字段,然后根据一定的挑选出247个歧义字段作为处理对象.为了深入了解组合歧义排歧过程中可能遇到的各种问题,我们选择了20个常用的歧义字段来进行详细研究.考虑到这些字...
肖云
关键词:中文分词系统自然语言处理
共1页<1>
聚类工具0