您的位置: 专家智库 > >

王建会

作品数:8 被引量:258H指数:5
供职机构:复旦大学信息科学与工程学院更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 7篇期刊文章
  • 1篇学位论文

领域

  • 8篇自动化与计算...

主题

  • 3篇信息处理
  • 3篇中文
  • 3篇文本分类
  • 3篇聚类
  • 2篇中文信息
  • 2篇中文信息处理
  • 2篇子空间
  • 2篇向量
  • 2篇向量空间
  • 2篇模式识别
  • 2篇N-GRAM
  • 1篇信息抽取
  • 1篇信息检索
  • 1篇英文
  • 1篇中文文本
  • 1篇中文文本分类
  • 1篇自适
  • 1篇自适应
  • 1篇最大熵
  • 1篇最大熵模型

机构

  • 8篇复旦大学
  • 2篇同济大学

作者

  • 8篇王建会
  • 6篇胡运发
  • 2篇王洪伟
  • 2篇申展
  • 2篇李荣陆
  • 1篇陶晓鹏
  • 1篇王雷
  • 1篇陈晓云
  • 1篇周水庚
  • 1篇伊磊

传媒

  • 3篇计算机研究与...
  • 1篇模式识别与人...
  • 1篇软件学报
  • 1篇中文信息学报
  • 1篇Journa...

年份

  • 1篇2007
  • 3篇2005
  • 4篇2004
8 条 记 录,以下是 1-8
排序方式:
自适应确定摘要长度被引量:5
2004年
随着信息技术的发展和信息量的大量增多 ,提出了很多自动摘要的算法 在这些众多的算法中 ,都有一个共同的现象———摘要的长度均需事先给定 然而 ,实际的情况是 ,随着信息样本的不同 ,该信息样本所包含的信息量也是不同的 为了能够全面地反映信息样本的主题思想 ,又不产生信息冗余 ,就要求根据具体信息样本 ,动态地确定与该样本信息量相适应的结果摘要长度 据此 ,提出了一种自适应于不同样本的、动态确定摘要长度的算法 ,从具体样本中循序渐进地抽取出其所包含的所有子主题 ,这些子主题的集合构成了该信息样本的主题思想 然后 ,再根据子主题的数量确定摘要的长度 ,既全面地反映了信息样本的内容 ,又不会产生信息冗余 另外 ,还提出了新的互依赖模型 ,使用该模型可以使切词的结果较为准确 ,并可有效地降维 。
王建会胡运发李荣陆
关键词:N-GRAM
基于互依赖和等效半径的文本分类方法(英文)
2007年
为了解决传统分类方法计算复杂度高及可扩展性差的问题,提出了互依赖和等效半径的概念,并将两者相结合,提出新的分类算法——基于互依赖和等效半径、易更新的分类算法IER.IER算法根据互依赖作为特征选择的量度,通过较长特征值的选择降低维度,通过重心和等效半径来建立分类模型.算法分析显示IER计算复杂度较低,扩展性能较好,适用于大规模场合.将IER算法应用于中文文本分类,并与kNN算法和类中心向量法进行比较,结果表明,在提高分类精度的同时,IER还可以大幅度提高分类速度,有利于对大规模信息样本进行实时在线的自动分类.
王洪伟伊磊王建会
关键词:向量空间
中文信息处理中若干关键技术的研究
随着科学技术的高速发展,以及各种资源数量的不断增多,为了提高效率,信息处理已经成为当前最重要的研究内容,其中涉及到切词和属性选择、信息抽取、自然语言理解、自动聚类和分类、自动摘要、自动标引和主题识别、信息结构分析、文本生...
王建会
关键词:信息处理信息抽取聚类子空间模式识别
文献传递
一种实用高效的聚类算法被引量:57
2004年
在信息处理研究领域,现有的大多数聚类算法都需要人为地给出一些参数.然而,在没有先验知识的情况下,人为地确定这些参数是十分困难的,而且现有的聚类算法的时空效率也有待于进一步提高.为了解决这一难题,首先根据样本分布特性,通过数学分析,得到确定样本空间划分间隔数的数学函数,然后,再根据样本分布特性,采用爬山的策略得到样本类的划分,最后提出了一种实用而高效的聚类算法.从多个角度分析了该算法的性能,并将该算法应用于中文文本聚类.理论分析和应用结果都表明,该算法不仅不需要人为确定参数,同时,还可以提高信息处理的时空效率和性能.
王建会申展胡运发
关键词:信息处理聚类子空间模式识别
一种实用高效的文本分类算法被引量:27
2005年
在模式识别研究领域已有的分类算法中,大多数都是基于向量空间模型的算法,其中使用范围最广的是kNN算法.但是,其中的大多数算法都因为计算复杂度太高而不适用于大规模的场合.而且,当训练样本集增大时都需要重新生成分类器,可扩展性差.为此,提出了互依赖和等效半径的概念,并将两者相结合,提出新的分类算法--基于互依赖和等效半径、易更新的分类算法SECTILE.SECTILE计算复杂度较低,而且扩展性能较好,适用于大规模场合.将SECTILE算法应用于中文文本分类,并与kNN算法和类中心向量法进行比较,结果表明,在提高分类精度的同时,SECTILE还可以大幅度提高分类速度,有利于对大规模信息样本进行实时在线的自动分类.
王建会王洪伟申展胡运发
关键词:向量空间
使用最大熵模型进行中文文本分类被引量:149
2005年
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于最大熵模型可以综合观察到各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果.但是,将最大熵模型应用在文本分类中的研究却非常少,而使用最大熵模型进行中文文本分类的研究尚未见到.使用最大熵模型进行了中文文本分类.通过实验比较和分析了不同的中文文本特征生成方法、不同的特征数目,以及在使用平滑技术的情况下,基于最大熵模型的分类器的分类性能.并且将其和Bayes,KNN,SVM三种典型的文本分类器进行了比较,结果显示它的分类性能胜于Bayes方法,与KNN和SVM方法相当,表明这是一种非常有前途的文本分类方法.
李荣陆王建会陈晓云陶晓鹏胡运发
关键词:文本分类最大熵模型N-GRAM
词语间依存关系的定量识别被引量:4
2005年
本文扩展和改进了现有的词语间依存关系定量识别算法,充分考虑词项概率分布的影响;明确区分词项之间的搭配关系、并列关系和从属关系,针对它们不同的特点,提出不同的识别算法;提出字串匹配模型;充分考虑两个词项之间相互位置的离散分布和距离的影响、以及它们的概率分布特性,提出词项间的依存强度模型,并据此构建词语间依存关系树;提出更新策略,对已经建好的依存关系树进行裁剪,并挖掘出潜在的依存关系。应用实验结果表明,本文提出的算法可以有效地识别出词语间的依存关系。
王建会王雷胡运发
关键词:计算机应用中文信息处理词语搭配
基于聚类的自动摘要被引量:2
2004年
提出了一种基于题聚类的自动摘要算法.该算法在采用统计方法的同时.又适当结合知识理解,既摆脱了领域限制,也使摘要的结果更为准确.此外,为了能够全面反映信息样本的主要内容,而又不产生信息(?)余,本文提出的摘要算法还力图适应于不同的样本、动态确定摘要长度.为此.本文首先构造出新的互依赖模型,为摘要算法选择较为准确的属性.接着,挖掘出评估语句重要性的新规则.为摘要算法提供选择为重要语句的尺度.最后,提出了一种较为客观的、基于任务的摘要性能评估算法.
王建会周水庚胡运发
关键词:聚类信息检索
共1页<1>
聚类工具0