国家自然科学基金(60272055) 作品数:14 被引量:138 H指数:7 相关作者: 宋柔 许勇 熊文新 罗智勇 荀恩东 更多>> 相关机构: 北京语言大学 北京工业大学 北京外国语大学 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 教育部科学技术研究重点项目 更多>> 相关领域: 自动化与计算机技术 文化科学 语言文字 更多>>
基于HMM的百科辞典文本中知识点划分方法 在百科全书条目文本中,往往以几个不同的侧面说明一个条目,一个侧面构成有关这一条目的一个知识点。属于同一个类型的条目文本中总是重复出现有限的几个知识点,这些知识点构成了有关该类型的知识点集合,并且这些知识点在该类型中不同的... 许勇 宋柔关键词:HMM 自然语言处理 文献传递 一种基于可信度的人名识别方法 专名识别是中文自动分词的重要任务。本文分析了目前流行的基于语料库和统计语言模型(SLM)的专名识别方法中存在的问题,同时以人名识别为例,在规则和统计相结合的基础上,提出了一种基于可信度的人名识别方法。从我们对《人民日报》... 罗智勇 宋柔 荀恩东关键词:自动分词 人名识别 统计语言模型 文献传递 大学英语作文自动评分中分级词表的效度研究 被引量:9 2008年 自动作文评分中的核心问题是对高信度的、机器可用的评分特征的选取。大学英语作文自动评分中的一个基本特征是词汇分布,而词汇分布的衡量需要一个描述清晰、刻画准确的大学英语作文分级词表,也就是一个效度较高的词表。实验证明目前已有的词表难以达到这个要求,但通过改进或者调整,可以取得对不同作文质量效度较高的词表。 李艳 葛诗利关键词:自动作文评分 大学英语写作 现代汉语通用分词系统中歧义切分的实用技术 被引量:29 2006年 歧义切分技术是中文自动分词系统的关键技术之一·特别是在现代汉语通用分词系统(GPWS)中,允许用户动态创建词库、允许多个用户词库同时参与切分,这给歧义切分技术提出了更高的实用性要求·从大规模的真实语料库中,考察了歧义(特别是交集型歧义)的分布情况和特征;提出了一种改进的正向最大匹配歧义字段发现算法;并根据GPWS的需求,提出了一种“规则+例外”的实用消歧策略·对1亿字《人民日报》语料(约234MB)中的交集型歧义字段进行了穷尽式的抽取,并随机的对上述策略进行了开放性测试,正确率达99%· 罗智勇 宋柔关键词:中文信息处理 歧义切分 基于CRF的百科全书文本段落划分 被引量:4 2007年 CRF模型是标注、切分序列数据的较新的概率模型,在信息抽取等文本处理领域广受关注。该文介绍了CRF方法,并将其应用到百科全书文本段落的划分上,利用CRF的特征表述机制加入了文本单元序列中的长距离约束,取得了比传统的隐马尔科夫方法更好的结果。 许勇 宋柔关键词:条件随机域模型 隐马尔科夫模型 基于半CRF模型的百科全书文本段落划分 被引量:3 2008年 介绍了基于半条件随机域(semi-Markov conditional random fields,简称semi-CRFs)模型的百科全书文本段落划分方法.为了克服单纯的HMM模型和CRF模型的段落类型重复问题,以经过整理的HMM模型状态的后验分布为基本依据,使用了基于词汇语义本体知识库的段落开始特征以及针对特定段落类型的提示性特征来进一步适应目标文本的特点.实验结果表明,该划分方法可以综合利用各种不同类型的信息,比较适合百科全书文本的段落结构,可以取得比单纯的HMM模型和CRF模型更好的性能. 许勇 宋柔关键词:自然语言处理 隐马尔科夫模型 信息检索需求描述中的词语区域凸显 2008年 根据对当前主流信息检索测试Query的形式和内容分析,通过正则表达式将SGML形式的Query表述区分为不同描述域和主题功能块,针对处于不同区域的词语实施不同的加权策略。实验表明,结合主题词语的区域凸显和TF×IDF的加权方法比单纯TF×IDF方法MRR值高出26.67%。 熊文新 宋柔关键词:信息检索 功能块 相似词及其在计算机辅助校对系统中的应用 统计方法在自然语言处理的多种应用中取得了令人瞩目的成果,但数据稀疏问题限制了应用系统性能的提高。把统计单位由词提升到词类有助于缓解数据稀疏问题,但是传统的词类体系并不能反映词语在线性邻接(ngram)特征上的相似关系,而... 罗智勇 宋柔关键词:数据稀疏 相似词 计算机辅助校对 文献传递 基于互连网的术语定义获取系统 被引量:21 2004年 文中介绍了一个实验性的基于互联网的术语定义获取系统 ,可以方便、迅速的从互连网上查找术语的定义以及与定义有关的内容 ,给用户迅速获得新生术语以及新技术词汇的定义方面的知识提供方便。系统采用一组术语定义的语言学模式 ,以多线程方式高效下载网页 ,并从中匹配符合术语定义模式的文本段落 ,再经一定后续处理 ,形成返回给用户的结果。系统中使用的语言学模式是在一定量的科技期刊语料库中获取的。试验结果表明系统的运行效率高 。 许勇 荀恩东 贾爱平 宋柔关键词:人工智能 自然语言处理 信息抽取 《中国大百科全书》人物传记知识提取加工规范 将百科辞典中的知识形式化,是使用计算机进行知识服务的根本基础。目前的主要方法是在人工建立语言知识库的基础上计算机对于词条释文进行句法语义分析,或者直接由知识专家对词条释文进行形式化改写。这两种方法都需要大量的高级人力的投... 颜伟 王洁 尚英 宋柔关键词:人物传记 知识提取 文献传递