国家高技术研究发展计划(2002AA119050)
- 作品数:5 被引量:23H指数:2
- 相关作者:王永成王志琪陈卫平刘传汉沈玺更多>>
- 相关机构:上海交通大学更多>>
- 发文基金:国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- HTML文件的文本信息预处理技术被引量:17
- 2006年
- 介绍了一种常用的文件类型HTML文件的文本信息预处理技术。该方法能够解析HTML文件的组成结构,并从中提取出主体文本以供处理。测试表明该方法能有效地得到大部分HTML网页的主体部分。文中对HTML文件的解析不仅可以用于提取出HTML文件的主体文本,也可以用于得到HTML文件中其他的元素的内容,具有推广应用价值。
- 王志琪王永成
- 关键词:HTML文本信息预处理
- 基于语料库的朴素贝叶斯方法的词义消歧
- 对文本中字串含义进行消歧是提高自动文本处理精度的重要手段之一,在信息检索、文本分类、自动、机器翻译等文本处理领域都有重要的理论和实践意义。本文介绍了一种基于语料库的朴素贝叶斯方法的词义消歧。根据实验结果,该方法在文本主题...
- 张云涛龚玲王永成
- 关键词:词义消歧朴素贝叶斯自然语言处理语料库
- 文献传递
- 基于Web服务自动摘要系统的安全实现方案
- 2005年
- 在基于Web服务自动摘要系统的开发过程中,如何保障Web服务的安全是一个必须解决的难题。该文设计了一种利用SOAP消息头传递验证信息、基于会话的高效Web服务安全通信机制。实验证明,该安全通信方案满足了系统的安全需求。
- 刘洋王永成
- 关键词:WEB服务SOAP身份验证
- 中文元搜索引擎调研报告
- 2003年
- 为了帮助人们对中文搜索引擎的利用,本文在对中文搜索引擎详加调研的基础上,提出了一个调研报告,报告中分门别类地详细介绍了中文搜索引擎的现状,这也可当做一种现有中文搜索引擎的索引,供关心中文搜索引擎者参考。
- 龙宇巍王永成许欢庆
- 关键词:元搜索引擎中文搜索引擎索引
- 面向对话文本的自动摘要系统的研究被引量:4
- 2005年
- 该文介绍了对话文本自动摘要系统的一些关键技术,包括体裁的识别、对话信息单元的识别、问题句与回答句的关联等。摘要的连贯性是衡量摘要质量的一个重要指标,由于对话文本本身的交互性,使得摘要的连贯性常存在于不同的对话者的对话内容之中,并以问题-回答对的形式出现。该文设计了一种自动识别这些局部连贯性的方法,该方法首先自动识别出所有的问题句;然后识别出与问题句相对应的回答句,形成问题-回答对;最后根据启发式规则,从这些问题-回答对中选取句子生成摘要。实验结果表明,该方法具有较高的识别准确率,并在无损摘要信息量的基础上大大提高对话文本摘要的连贯性。
- 陈卫平王永成刘传汉
- 关键词:对话文本连贯性
- 识别中文文本中的未登录专有名词的类别
- 根据人名、地名和组织名的自身用字规律和人名、地名和组织名在上下文环境中对应的指示词来作为度量专有名词类别的特征,从而对从文本中抽取出的未登录词中的各类专有名词进行归类。基于对Internet新闻文本的开放测试,精度和识别...
- 张云涛龚玲王永成
- 关键词:中文信息处理中文人名识别中文地名识别未登录词
- 文献传递
- 基于词典和语料库的概念内聚度研究
- 针对自然语言处理中利用概念空间进行自动文档处理,本文提出一种基于组合词典和语料统计来计算概念内聚度的方法;该方法融合知识库和统计处理在概念关系判断方面的各自优势,有效计算概念语义关联,提高自动文档分析的准确性。通过实验验...
- 刘德荣王永成
- 关键词:词典语料统计
- 文献传递
- WEB语音检索中查询概念纠错的研究被引量:2
- 2006年
- 使用语音识别技术为搜索引擎提供语音查询接口,使得查询概念的输入更为简便。但是,由于查询概念中存在大量的专有名词和名称,识别精度往往不高,影响搜索结果的准确率。该文提出一种在新闻领域内,利用新闻领域知识提高查询概念识别率的方法,通过计算语音识别结果与新闻概念库中概念的语音相似度确定备选结果,计算备选结果与辅助概念的新闻相关度来确定最终的查询概念。实验证明,该方法对新闻搜索引擎的查询概念的纠错收到了良好的效果。
- 沈玺王永成
- 关键词:语音识别语音检索相关度