您的位置: 专家智库 > >

方芳

作品数:8 被引量:16H指数:3
供职机构:南京师范大学文学院更多>>
相关领域:自动化与计算机技术语言文字文化科学更多>>

文献类型

  • 5篇期刊文章
  • 3篇会议论文

领域

  • 5篇自动化与计算...
  • 3篇语言文字
  • 1篇文化科学

主题

  • 4篇自动识别
  • 3篇切分
  • 3篇全切分
  • 3篇中文
  • 3篇高频
  • 2篇信息处理
  • 2篇语料
  • 2篇语料库
  • 2篇中文信息
  • 2篇中文信息处理
  • 2篇字段
  • 2篇基于语料
  • 2篇基于语料库
  • 2篇表词
  • 1篇单字
  • 1篇短语
  • 1篇短语识别
  • 1篇三字词
  • 1篇数字串
  • 1篇评分机制

机构

  • 8篇南京师范大学

作者

  • 8篇方芳
  • 5篇李斌
  • 4篇陈小荷
  • 3篇徐艳华
  • 2篇冯敏萱

传媒

  • 2篇计算机工程与...
  • 1篇中文信息学报
  • 1篇乐山师范学院...
  • 1篇暨南大学华文...
  • 1篇全国第八届计...

年份

  • 4篇2006
  • 3篇2005
  • 1篇2004
8 条 记 录,以下是 1-8
排序方式:
中文单字国名简称的自动识别被引量:3
2006年
单字地名简称识别是中文专名识别的重要组成部分,其中单字国名简称又占到了78.43%。但就现有的词性标注系统来看,还不能很好地对其进行识别。文章提出了一个基于规则的识别方法,以分词文本为底本,通过两次扫描,第一次扫描建立基于语篇的临时国名词表,第二次扫描利用上下文特征词等评分机制,从分词碎片中召回单字国名简称。在封闭测试和开放测试中,都取得了较好的实验结果,以人工分词文本为输入底本,调和平均值分别达到了96.33%和94.96%。
李斌方芳
关键词:评分机制
带后缀三字词的自动识别被引量:4
2006年
带后缀的三字词约占三字词总数的17.5%。笔者通过对120万字语料的统计和内省共获得71种能构成三字词的后缀,并分析了这些三字词的组合规律及前缀等上下文特征。运用这些知识,对65万字语料中带后缀的三字词进行识别,精确率和召回率由原来的85.2%和86.6%分别提高到86.6%和99.7%。
冯敏萱方芳陈小荷
关键词:后缀三字词中文信息处理自动识别
阿拉伯数字串到汉字数字串的自动转换
2005年
汉字的实数表达方式及规则,在汉语教学和机器翻译等领域中,都是较为重要的内容。本文详细分析了汉字实数的表达规则,并给出其结构表达式。在此基础上,使用C语言编写程序,把文本中实数范围内的阿拉伯数字串转换为相应的汉字数字串。
李斌方芳
基于语料库的高频最大交集型歧义字段考察被引量:7
2006年
交集型歧义是中文分词的一大难题,构建大规模高频最大交集型歧义字段(MOAS)的数据库,对于掌握其分布状况和自动消歧都具有重要意义。本文首先通过实验指出,与FBMM相比,全切分才能检测出数量完整、严格定义的MOAS,检测出的MOAS在数量上也与词典规模基本成正比。然后,在4亿字人民日报语料中采集出高频MOAS14906条,并随机抽取了1354270条带有上下文信息的实例进行人工判定。数据分析表明,约70%的真歧义MOAS存在着强势切分现象,并给出了相应的消歧策略。
李斌陈小荷方芳徐艳华
关键词:计算机应用中文信息处理全切分
高频最大交集型歧义字段问题研究
交集型歧义是中文分词的一大难题,建立大规模高频最大交集型歧义字段(MOAS)的数据库,对于掌握其分布状况和自动消歧都具有重要意义.本文采用全切分方法,在4亿字人民日报语料上采集严格定义的高频MOAS14906条,随机抽取...
李斌陈小荷方芳徐艳华
关键词:全切分
文献传递网络资源链接
含词尾的三字新词识别
新词识别一直是中文信息处理所关心的话题。本文针对三字新词的构造特点,并以训练语料为例,着重分析了含词尾的三字新词在自动识别时的重点和难点,从而进一步提出我们的解决方案,介绍了实现的过程及算法。最后,通过分析测试语料的识别...
方芳冯敏萱
关键词:词尾自动识别
文献传递
基于语料库的量名短语识别初探被引量:2
2006年
本文在语料库的基础上,通过考察、分析和统计人工分词和词性标注语料,采用语言学成果和计算机技术,对量名短语在语料库中的自动识别工作做了初步探讨。实验结果证明,利用匹配搭配词典和参考通过训练得出的搭配概率的方法,能够较好地在分词及词性标注文本上自动识别量名短语。
方芳
关键词:自动识别搭配词典
高频最大交集型歧义字段问题研究
交集型歧义是中文分词的一大难题,建立大规模高频最大交集型歧义字段(MOAS)的数据库,对于掌握其分布状况和自动消歧都具有重要意义。本文采用全切分方法,在4亿字人民日报语料上采集严格定义的高频MOAS14906条,随机抽取...
李斌陈小荷方芳徐艳华
关键词:全切分
文献传递
共1页<1>
聚类工具0