张锋
- 作品数:8 被引量:177H指数:5
- 供职机构:北京理工大学更多>>
- 发文基金:云南省电子信息产业发展基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于最大熵模型的交集型切分歧义消解被引量:9
- 2005年
- 利用最大熵模型研究中文自动分词中交集型切分歧义的消解.模型输出的类别为两种:前两个字结合成词和后两个字结合成词.模型采用的特征为:待切分歧义字段的上下文各一个词、待切分歧义字段和歧义字段两种切分可能的词概率大小关系.通过正向最大匹配(FMM)和逆向最大匹配(BMM)相结合的分词方法,发现训练文本中的交集型歧义字段并进行标注,用于最大熵模型的训练.实验用1998年1月《人民日报》中出现的交集型歧义字段进行训练和测试,封闭测试正确率98.64%,开放测试正确率95.01%,后者比常用的词概率法提高了3.76%.
- 张锋樊孝忠
- 关键词:中文信息处理汉语自动分词交集型歧义最大熵模型
- 基于统计的中文姓名识别方法研究被引量:35
- 2004年
- 该文在大规模标注语料的基础上统计分析了中文姓名前置词频率、中文姓氏用字频率、中文名字用字频率、中文姓名后置词频率。利用这些统计数据在词语粗分的基础上实现了中文姓名的自动识别,实验测试结果:准确率93.82%、召回率89.37%。
- 张锋樊孝忠许云
- 关键词:自动分词未登录词中文姓名识别
- 基于知网的语义相关度计算被引量:76
- 2005年
- 为解决句法分析中的结构性歧义,引入了语义相关度计算.基于语义相似度计算及知网的语义信息,提出了语义相关度计算方法;利用知网的义原纵向与横向关系及实例信息计算不同词性的相关度.在计算义原距离时,考虑了义原之间的解释关系,对义原的距离进行修正.根据相似度的对称性,计算实例的影响因素提高了相关度的准确率.实验结果表明,使用该计算方法得出的语义相关度结果更加合理.
- 许云樊孝忠张锋
- 关键词:语义相关度知网自然语言处理
- 基于《知网》信息结构模式的词汇化树邻接文法消歧被引量:1
- 2005年
- 针对词汇化树邻接文法的歧义现象,利用《知网—信息结构库》作为知识库,并引入概率方法提出了一种有效的句法树消歧方法。文中阐述了如何利用知网信息结构模式对句法树进行筛选,并提出了基于概率的信息结构抽取的计算方法。
- 许云樊孝忠张锋
- 关键词:消歧知网
- 基于互信息的中文术语抽取系统被引量:46
- 2005年
- 介绍了一个中文术语自动抽取系统,该系统首先基于互信息计算字串的内部结合强度,从而得到术语候选集;接着从术语候选集中去除基本词,并利用普通词语搭配前缀、后缀信息进一步过滤;最后对术语候选进行词法分析,利用术语的词性构成规则进行判别,得到最终的术语抽取结果。实验结果表明,术语抽取正确率为72. 19%,召回率为77. 98%,F 测量为74. 97%。
- 张锋许云侯艳樊孝忠
- 关键词:术语抽取互信息语料
- 自动提取词汇化树邻接文法被引量:2
- 2005年
- 提出了一种从宾州中文语料库中自动提取词汇化树邻接文法(LTAG)的算法。该算法的主要思想是从词汇化树库中归纳出三种类型的词汇化树,然后利用了中心词驱动短语结构文法的方法从语料库自动提取结构合理的词汇化树;最后由语言规则对不合法的词汇化树进行过滤。与手工创建词汇化树邻接文法相比,它需要较少的人力,并且避免了人工创建词汇化树可能造成的遗漏或不一致现象。
- 许云樊孝忠张锋
- 关键词:语料库自然语言处理
- 基于生成语法的英语时态判断被引量:4
- 2004年
- 为了帮助中学生掌握英语时态选择题,该文使用了生成语法的基本思想方法,但在其基础上引入了一些新的概念,使其能够在受限领域内可以有效地分析出英语时态选择题的正确答案。文章阐明如何利用现有的生成语法中产生式的思想方法,及新引入的关键字匹配和通配符的概念,使计算机通过规则能够理解英语句子的句型及应该使用的时态。此方法作为选择题判断的一种新尝试。
- 许云樊孝忠张锋
- 关键词:生成语法产生式
- 一种不需分词的中文文本分类方法被引量:7
- 2005年
- 提出了一种不需分词的n元语法文本分类方法.与传统文本分类模型相比,该方法在字的级别上利用了n元语法模型,文本分类时无需进行分词,并且避免了可能造成有用信息丢失的特征选择过程.由于字的数量远小于词的数量,所以该分类方法与其它在词级别上的分类方法相比,有效地降低了数据稀疏带来的影响.系统地研究了模型中的关键因素以及它们对分类结果的影响.使用中文TREC提供的数据进行实验,结果表明,综合评价指标Fβ=1达到86.8%.
- 许云樊孝忠张锋
- 关键词:文本分类分词