国家自然科学基金(60403050)
- 作品数:14 被引量:113H指数:6
- 相关作者:王挺陈火旺张晓艳陈耀东刘伍颖更多>>
- 相关机构:国防科学技术大学更多>>
- 发文基金:国家自然科学基金教育部“新世纪优秀人才支持计划”国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 基于本体概念结构的SVM多类分类方法及其在本体自动扩充中的应用
- <正>1 引言本体是哲学研究中发展出来的一个概念,指形成现象的根本实体。近十多年来,随着研究的日益深入,本体已经远远超过了哲学的范畴,在信息技术、知识工程等方面都有广泛的应用。尤其是本体
- 唐晋韬王挺
- 关键词:SVM
- 文献传递
- 面向中文文本的时间本体构建和自动扩充
- 对时间本体和本体自动扩充的研究是语义web领域的重要研究方向。本文通过对中文时间描述进行深入的分析,设计了一种新的时间本体结构,并构建了一种面向中文描述的时间本体。在此基础上针对中文时间描述的特点选择了词汇特征和句法特征...
- 唐晋韬王挺周会平
- 关键词:SVM
- 文献传递
- 汉英统计机器翻译中A~*搜索算法研究与实现
- 2007年
- 分析了基于IBM Model 4的A*搜索算法和启发函数,由于仅靠启发函数难以找到最优译文,因此在搜索中采用了部分宽度搜索,以扩大搜索的范围。将该算法应用于汉英统计机器翻译中,实验结果表明改进后的算法获得了较好的翻译质量和效率。
- 魏瑾王挺周会平
- 关键词:统计机器翻译IBMMODEL启发函数汉英机器翻译
- SVM和基于转换的错误驱动学习相结合的汉语组块识别被引量:6
- 2007年
- 本文研究了一种支持向量机(SVM)和基于转换的错误驱动学习相结合的汉语组块识别方法。SVM在选取特征方面有突出的优点,并且在高维特征空间也具有较高的泛化性能,通过核函数的原则,SVM能够在独立于训练数据维数的小计算范围内进行训练。利用基于转换的错误驱动学习方法对SVM的标注结果进行校正,转换规则较好地处理了语言现象中的特殊情况,进一步提高了SVM的识别结果。实验结果表明,该方法具有较好的效果。
- 邹宏梅王挺
- 关键词:支持向量机
- 基于有向图的双向匹配分词算法及实现被引量:15
- 2005年
- 在分析了现有各种汉语分词算法及其优缺点的基础上,提出以句子覆盖率和分词覆盖率作为评价分词方法的指标,详细介绍了基于网络有向图的双向匹配分词算法的设计与实现,该算法对经典的最大匹配分词算法进行了改进,通过带覆盖歧义标志的有向图生成多候选分词序列。与最大匹配算法和全切分算法的比较实验显示,基于有向图的双向匹配算法以低复杂度实现了高覆率盖。
- 陈耀东王挺
- 关键词:全切分
- 基于多过滤器集成学习的在线垃圾邮件过滤被引量:5
- 2008年
- 垃圾邮件过滤就是在线对邮件做出Spam(垃圾)或Ham(非垃圾)的判断,这是一种根据客户反馈不断自学习的过程。本文抽取邮件的语言特征和行为特征构建多个简单过滤器,然后采用集成学习方法组合这些简单过滤器,获得了比简单过滤器更高的性能。实验表明单一特征学习的计算复杂性低、速度较快,而集成学习的效果更好。本文提出的将SVM集成学习用于邮件过滤的方法,在各种集成学习方法中效果最好。
- 刘伍颖王挺
- 关键词:计算机应用中文信息处理垃圾邮件过滤支持向量机
- 半监督学习和主动学习相结合的浅层语义分析被引量:18
- 2008年
- 语义分析是基于内容的文本挖掘领域的重要技术和研究难点。有监督机器学习方法受限于标注语料的规模,在小规模标注样本中难以获取较高性能。本文面向浅层语义分析任务,采用一种新颖的半监督学习方法——直推式支持向量机,并结合其训练特点提出了基于主动学习的样本优化策略。实验表明,本文提出的浅层语义分析方法通过整合主动学习与半监督学习,在小规模标注样本环境中取得了良好的学习效果。
- 陈耀东王挺陈火旺
- 关键词:计算机应用中文信息处理浅层语义分析半监督学习直推式支持向量机
- 关键词提取中的分离模型和特征设计
- 关键词提取在自动文摘、信息检索、文本分类、文本聚类等方面具有十分重要的作用。通常所说的关键词实际上有相当一部分是关键的短语,而这部分关键词的提取是十分困难的问题。本文提出将关键词提取分为两个问题进行处理:关键单词提取和关...
- 罗准辰刘伍颖王挺
- 关键词:关键词提取语言学知识
- 文献传递
- 基于本体的医疗信息搜索技术被引量:4
- 2009年
- 针对医疗信息联合搜索中存在的问题,提出一种基于医疗领域本体的多信息融合搜索方法。该方法采用信息抽取技术自动构建本体实例,运用医疗领域本体对用户查询请求进行语义处理,同时实现了基于该方法的原型系统。实验结果表明,该原型系统能有效返回多种相关信息,从而说明了本体在多信息融合搜索方面的重要性。
- 赵修文刘伍颖王挺
- 关键词:信息抽取搜索引擎
- 基于分离模型的中文关键词提取算法研究被引量:13
- 2009年
- 关键词提取在自动文摘、信息检索、文本分类、文本聚类等方面具有十分重要的作用。通常所说的关键词实际上有相当一部分是关键的短语和未登录词,而这部分关键词的抽取是十分困难的问题。该文提出将关键词提取分为两个问题进行处理:关键单词提取和关键词串提取,设计了一种基于分离模型的中文关键词提取算法。该算法并针对关键单词提取和关键词串提取这两个问题设计了不同的特征以提高抽取的准确性。实验表明,相对于传统的关键词提取算法,基于分离模型的中文关键词提取算法效果更好。
- 罗准辰王挺
- 关键词:计算机应用中文信息处理关键词提取互信息