刘非凡
- 作品数:4 被引量:72H指数:4
- 供职机构:中国科学院自动化研究所更多>>
- 发文基金:国家自然科学基金北京市自然科学基金国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 面向商务信息抽取的产品命名实体识别研究被引量:55
- 2006年
- 市场信息化使得商务信息抽取、市场内容管理日益成为信息科学领域的一个研究热点。产品命名实体识别作为其中非常重要的关键技术之一也逐渐受到人们的关注。本文面向商务信息抽取对产品命名实体进行了定义并系统分析了其识别任务的特点和难点,提出了一种基于层级隐马尔可夫模型(hierarchical hid-den Markov model)的产品命名实体识别方法,实现了汉语自由文本中产品命名实体识别和标注的原型系统。实验表明,该系统在电子数码和手机领域均取得了令人满意的实验结果,对产品名实体、产品型号实体、产品品牌实体整体识别性能的F值分别为79.7%,86.9%,75.8%。通过和最大熵模型相比较,验证了HHMM对于处理多尺度嵌套序列有更强的表征能力。
- 刘非凡赵军吕碧波徐波于浩夏迎炬
- 关键词:计算机应用中文信息处理
- 一种面向汉英口语翻译的双语语块处理方法被引量:10
- 2003年
- 基于语块的处理方法是近年来自然语言处理领域兴起的一条新思路。但是 ,要将其应用于口语翻译当中 ,还需按照口语特点对涉及双语的语块概念做出合理界定。本文在已有单语语块定义的基础上 ,根据中、英文差异和口语翻译特性 ,从句法和语义两个层次提出了一种汉英双语语块概念 ,并对其特点进行了分析。同时 ,针对中、英文并行语料库 ,建立了一套计算机自动划分与人工校对相结合的双语语块加工方法。应用该方法 ,对汉英句子级对齐的口语语料进行双语语块划分和对整 ,并以此为基础进行了基于双语语块的口语统计机器翻译实验。结果表明 ,本文提出的双语语块定义符合口语翻译的实际需要 ,使用基于双语语块的语料处理方法 。
- 程葳赵军徐波刘非凡
- 关键词:人工智能机器翻译统计机器翻译口语翻译语料库语块
- 面向口语翻译的双语语块自动识别被引量:4
- 2004年
- 语块识别是实现“基于语块处理方法”的基础 .目前 ,针对单语语块的研究成果已有很多 ,但机器翻译更需要双语相关的语块分析 .该文根据口语翻译的实际需要 ,提出了“双语语块”的概念 .并在此基础上 ,实现了一种针对并行语料库进行双语语块自动识别的新方法 .该方法将统计和规则相结合 ,可同时保证双语语块的语义特性和句法规范 .通过在一个 6万句的旅馆预定领域口语语料库中的实验可以看出 ,该方法对汉英并行语料的双语语块识别正确率可达到 80 %左右 .
- 程葳赵军刘非凡徐波
- 关键词:语块语料库口语翻译
- 实体提及的多层嵌套识别方法研究被引量:4
- 2007年
- 实体识别在许多自然语言处理应用系统中发挥着极其重要的作用。目前大部分研究集中在命名实体识别,且不考虑实体之间的嵌套,本文在自动内容抽取评测(Automatic Content Extraction,ACE)背景下,对汉语文本中各种实体提及(命名性,名词性,代词性)的多层嵌套识别进行了研究。我们将嵌套实体识别分成两个子任务:嵌套实体边界检测和实体多层信息标注。首先,本文提出了一种层次结构信息编码方法,将多层嵌套边界检测问题转化为传统的序列标注问题,利用条件随机场模型融合多种特征进行统计决策。其次,将多层信息标注问题看作分类问题,从实现的角度设计了含有两个分类引擎的并行SVM分类器,避免了对每层信息标注都设计一个分类器,比采用单一分类器在性能上有明显提高。在标准ACE语料上的实验表明,基于条件随机场的多层实体边界检测模型正确率达到71%,融合特征选择策略的两个并行分类引擎的正确率也分别达到了89.05%和82.17%。
- 刘非凡赵军徐波
- 关键词:人工智能自然语言处理条件随机场支持向量机