您的位置: 专家智库 > >

国家高技术研究发展计划(2007AA01Z148)

作品数:4 被引量:43H指数:4
相关作者:孙茂松张开旭乔维宇航夏云庆更多>>
相关机构:清华大学更多>>
发文基金:国家自然科学基金国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 4篇期刊文章
  • 1篇会议论文

领域

  • 5篇自动化与计算...

主题

  • 3篇信息处理
  • 3篇中文
  • 3篇计算机
  • 2篇中文信息
  • 2篇中文信息处理
  • 2篇计算机应用
  • 2篇汉语
  • 2篇分词
  • 1篇断句
  • 1篇对联
  • 1篇一体化
  • 1篇随机场
  • 1篇条件随机场
  • 1篇统计特性
  • 1篇歧义
  • 1篇中文分词
  • 1篇自动分词
  • 1篇命名实体识别
  • 1篇计算机信息
  • 1篇计算机信息处...

机构

  • 5篇清华大学

作者

  • 4篇孙茂松
  • 3篇张开旭
  • 2篇乔维
  • 1篇夏云庆
  • 1篇宇航

传媒

  • 2篇清华大学学报...
  • 2篇中文信息学报

年份

  • 1篇2010
  • 2篇2009
  • 2篇2008
4 条 记 录,以下是 1-5
排序方式:
统计与规则相结合的古文对联应对模型被引量:4
2009年
该文将古文对联规则区分为硬规则与软规则,将软规则区分为字相对与上下文相对。并在软规则指导下建立对联应对的有向概率图模型,使用EM(Expectation-Maximization)算法估计模型参数,在求解的搜索过程中加入硬规则,从而给出了一种完整的对联自动应对方法。实验结果表明参数学习后的候选字列表由于一定程度上不考虑上下文相对的影响,比仅用频次统计的候选字列表更为合理。该方法还能够对训练语料库中工整与不工整的对联区分学习。基于该方法所实现的古文对联应对程序达到了一定水平。
张开旭孙茂松
关键词:计算机应用中文信息处理
基于条件随机场的古汉语自动断句与标点方法被引量:31
2009年
标点符号在现代汉语中扮演着重要的角色,但古代汉语中却不含有任何标点。这使得现代中国人阅读古代文献有严重的困难。该文提出一个基于条件随机场(CRF)的古汉语自动断句标点方法,并引入互信息和t测-试差两个统计量作为模型的特征。分别在《论语》与《史记》两个语料库上进行了充分实验,该方法在《论语》断句处理F 1分数上超出现有方法0.124,在《论语》标点和《史记》断句、标点处理上也取得了满意效果。实验证明:基于条件随机场的方法能较好解决古文自动标点处理问题;层叠条件随机场策略亦优于单层条件随机场策略。
张开旭夏云庆宇航
关键词:计算机信息处理
基于M^3N的中文分词与命名实体识别一体化被引量:5
2010年
中文分词和命名实体识别经常被视为2个独立的任务。该文提出一种基于最大间隔Markov网络模型(M3N)的中文分词和命名实体识别一体化方法,将二者统一在一个字序列标注框架下,进行联合训练和测试。在SIGHAN_2005分词数据集上的实验结果显示,与基于条件随机场模型的分词器相比,基于M3N的分词器加权综合值提高0.3%~2.0%。在SIGHAN_2005分词数据集和SIGHAN_2006命名实体数据集上进行测试的结果显示,与分步方法相比,一体化方法能够同时提高中文分词和命名实体识别的性能,加权综合值的提高幅度分别为1.5%~5.5%和5.7%~7.9%。同时,还基于分词任务考察了特征模版和不合法序列对M3N性能的影响。
乔维孙茂松
关键词:中文分词命名实体识别
汉语交集型歧义切分字段关于专业领域的统计特性被引量:4
2008年
交集型分词歧义是汉语自动分词中的主要歧义类型之一。现有的汉语自动分词系统对它的处理能力尚不能完全令人满意。针对交集型分词歧义,基于通用语料库的考察目前已有不少,但还没有基于专业领域语料库的相关考察。根据一个中等规模的汉语通用词表、一个规模约为9亿字的通用语料库和两个涵盖55个专业领域、总规模约为1.4亿字的专业领域语料库,对从通用语料库中抽取的高频交集型歧义切分字段在专业领域语料库中的统计特性,以及从专业领域语料库中抽取的交集型歧义切分字段关于专业领域的统计特性进行了穷尽式、多角度的考察。给出的观察结果对设计面向专业领域的汉语自动分词算法具有一定的参考价值。
乔维孙茂松
关键词:计算机应用中文信息处理汉语自动分词
统计与规则结合的古文对联应对模型
本文将古文对联规则区分为硬规则与软规则,用软规则指导建立对联应对的有向概率图模型,使用EM算法估计模型参数,在解的搜索过程中加入硬规则而完全实现对联的自动应对。实验结果表明参数学习后的候选字列表由于去除了部分上下文的影响...
张开旭孙茂松
关键词:对联
文献传递
共1页<1>
聚类工具0