曹羽中
- 作品数:13 被引量:92H指数:3
- 供职机构:北京航空航天大学更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金中国航空科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于Web的双语本体构建系统
- 构建多语言对齐的本体库,是面向相关语言文本的自然语言处理、信息提取、信息检索等领域的重要基础.本文介绍了一个基于Web的双语本体构建系统.它设计了具有完整约束的数据库结构,在结合研究界和工业界已有成果的基础上,不仅提供了...
- 曹勇刚曹羽中金茂忠刘超
- 关键词:语义WEBWORDNETOWLWEB系统数据库
- 文献传递
- 基于倒排表进行检索提示的方法
- 一种基于倒排表进行检索提示的方法,其步骤为:建立主倒排表和次倒排表;将检索串切分成词,用主搜索引擎检索出包含这些词的文档,将这些文档进行相关度排序,得到检索结果。将检索串切分成字,用次搜索引擎检索出包含检索串中每一个字的...
- 曹勇刚曹羽中金茂忠刘超
- 文献传递
- 一种基于关注点的用例模型的逆向恢复方法
- 2008年
- 用例作为展现程序系统级行为的有效手段,可以辅助理解程序的功能特征。针对面向对象系统提出了一种基于关注点的用例模型逆向生成方法。该方法分析目标系统运行时的动态信息,把其中方法调用序列的起始方法看作基本用例,使用一定的规则识别出基本用例间的关系来合并生成用例,依据从用户的关注点中获取到的有用信息,对生成用例进行改进,从而实现了用例模型的逆向生成。通过实验分析,表明该方法在恢复用例模型并提高其准确性方面是有效的。
- 崔伟勇邬丽红曹羽中
- 关键词:逆向工程用例模型
- 支持智能中文分词的互联网搜索引擎的构建被引量:11
- 2006年
- 中文分词技术对中文搜索引擎的查准率及查全率有重大影响。在剖析开源搜索引擎Nutch的源代码结构的基础上,基于JavaCC实现了一个可扩展的词法分析器并将其与Nutch集成,构建了一个支持智能中文分词的互联网搜索引擎Nutch-Enhanced。它可用作评测各类中文分词算法对搜索引擎的影响的实验平台。对NutchEnhanced的搜索质量与Nutch、Google、百度进行了对比评测。结果表明它远优于Nutch,其查全率达到了0.74,前30个搜索结果的查准率达到了0.86,总体上具有与Google,百度接近的中文搜索质量。
- 曹羽中曹勇刚金茂忠刘超
- 关键词:中文分词分词算法搜索引擎词法分析器
- 面向信息检索的自适应中文分词系统被引量:75
- 2006年
- 新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此算法,设计和实现了一个全新的分词系统BUAASEISEG.它能够识别任意领域的各类新词,也能进行歧义消解和切分任意合理长度的词.它采用迭代式二元切分方法,对目标文档进行在线词频统计,使用离线词频词典或搜索引擎的倒排索引,筛选候选词并进行歧义消解.在统计模型的基础上,采用姓氏列表、量词表以及停词列表进行后处理,进一步提高了准确度.通过与著名的ICTCLAS分词系统针对新闻和论文进行对比评测,表明BUAASEISEG在新词识别和歧义消解方面有明显的优势.
- 曹勇刚曹羽中金茂忠刘超
- 关键词:分词系统分词算法信息检索新词识别歧义消解
- 基于编辑距离的源代码相似度度量方法
- 本发明提供一种基于编辑距离的源代码相似度度量方法,包括:输入第一源代码块和第二源代码块;识别第一源代码块和第二源代码块中的符号;判断所述符号的类型,根据所述类型设置相应的增加值;逐一比较第一源代码块与第二源代码块中的符号...
- 李虎曹羽中刘超金茂忠
- 文献传递
- 提取、索引和挖掘中文学术论文
- 随着论文数量的增多,如何有效地利用从各种渠道获取的大量论文是本研究的重点.相对于围绕英文论文的相关工作,目前针对中文学术论文的提取和挖掘工作比较缺乏.本文以2004年全国软件与应用学术会议(NASAC2004)的论文投稿...
- 曹勇刚曹羽中金茂忠刘超
- 关键词:搜索引擎文本挖掘
- 文献传递
- 克隆代码检测技术综述被引量:6
- 2006年
- 克隆代码通常是指软件系统中存在的相同或相似的代码片段,会严重影响软件的可维护性.克隆代码检测技术致力于自动发现软件系统中的克隆现象并协助开发者消除它们.本文介绍了克隆代码自动检测的研究意义与发展历程,阐述了本领域相关的概念模型,分析了已有的自动检测克隆代码的不同思路并归纳总结了几大技术流派各自的优缺点,同时探讨了基于克隆检测技术的软件重构与再工程、软件维护改进、方面挖掘等相关研究,最后总结和展望了本领域研究的发展趋势.
- 曹羽中金茂忠刘超
- 关键词:克隆代码可维护性再工程软件维护
- 提取、索引和挖掘中文学术论文被引量:1
- 2005年
- 随着论文数量的增多,如何有效地利用从各种渠道获取的大量论文是本研究的重点.相对于围绕英文论文的相关工作,目前针对中文学术论文的提取和挖掘工作比较缺乏.以2004年全国软件与应用学术会议(NASAC2004)的论文投稿为测试集,对提取、索引和挖掘的中文学术论文的方法进行研究.针对提取论文元数据的困难提出了解决方案,并提出了经过分字段索引后,面向具体问题利用各种分析方法获取问题答案(知识)的方法.实验表明,利用计算机辅助人们自动分析中文学术论文是有意义并可行的.
- 曹勇刚曹羽中金茂忠刘超
- 关键词:搜索引擎学术论文文本挖掘
- 克隆代码检测技术综述
- 克隆代码通常是指软件系统中存在的相同或相似的代码片段,会严重影响软件的可维护性.克隆代码检测技术致力于自动发现软件系统中的克隆现象并协助开发者消除它们.本文介绍了克隆代码自动检测的研究意义与发展历程,阐述了本领域相关的概...
- 曹羽中金茂忠刘超
- 关键词:克隆代码可维护性再工程软件维护
- 文献传递