您的位置: 专家智库 > >

王建会

作品数:8 被引量:255H指数:5
供职机构:复旦大学信息科学与工程学院更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 7篇期刊文章
  • 1篇学位论文

领域

  • 8篇自动化与计算...

主题

  • 3篇信息处理
  • 3篇中文
  • 3篇聚类
  • 2篇中文信息
  • 2篇中文信息处理
  • 2篇子空间
  • 2篇文本分类
  • 2篇模式识别
  • 2篇N-GRAM
  • 1篇信息抽取
  • 1篇信息检索
  • 1篇中文文本
  • 1篇中文文本分类
  • 1篇自适
  • 1篇自适应
  • 1篇最大熵
  • 1篇最大熵模型
  • 1篇文本分类算法
  • 1篇向量
  • 1篇向量空间

机构

  • 8篇复旦大学
  • 2篇同济大学

作者

  • 8篇王建会
  • 6篇胡运发
  • 2篇王洪伟
  • 2篇申展
  • 2篇李荣陆
  • 1篇陶晓鹏
  • 1篇王雷
  • 1篇陈晓云
  • 1篇周水庚
  • 1篇伊磊

传媒

  • 3篇计算机研究与...
  • 1篇模式识别与人...
  • 1篇软件学报
  • 1篇中文信息学报
  • 1篇Journa...

年份

  • 1篇2007
  • 3篇2005
  • 4篇2004
8 条 记 录,以下是 1-8
排序方式:
自适应确定摘要长度被引量:5
2004年
随着信息技术的发展和信息量的大量增多 ,提出了很多自动摘要的算法 在这些众多的算法中 ,都有一个共同的现象———摘要的长度均需事先给定 然而 ,实际的情况是 ,随着信息样本的不同 ,该信息样本所包含的信息量也是不同的 为了能够全面地反映信息样本的主题思想 ,又不产生信息冗余 ,就要求根据具体信息样本 ,动态地确定与该样本信息量相适应的结果摘要长度 据此 ,提出了一种自适应于不同样本的、动态确定摘要长度的算法 ,从具体样本中循序渐进地抽取出其所包含的所有子主题 ,这些子主题的集合构成了该信息样本的主题思想 然后 ,再根据子主题的数量确定摘要的长度 ,既全面地反映了信息样本的内容 ,又不会产生信息冗余 另外 ,还提出了新的互依赖模型 ,使用该模型可以使切词的结果较为准确 ,并可有效地降维 。
王建会胡运发李荣陆
关键词:N-GRAM
New text classification algorithm based on interdependence and equivalent radius
2007年
To improve the traditional classifying methods, such as vector space model (VSM)-based methods with highly complicated computation and poor scalability, a new classifying method ( called IER) is presented based on two new concepts: interdependence and equivalent radius. In IER, the attribute is selected according to the value of interdependence, and the classifying rule is based on equivalent radius and center of gravity. The algorithm analysis shows that IER is good at classifying a large number of samples with higher scalability and lower computation complexity. After several experiments in classifying Chinese texts, the conclusion is drawn that IER outperforms k-nearest neighbor (kNN) and classifcation based on the center of classes (CCC) methods, so IER can be used online to automatically classify a large number of samples while keeping higher precision and recall.
王洪伟伊磊王建会
关键词:CLASSIFICATIONINTERDEPENDENCE
中文信息处理中若干关键技术的研究
随着科学技术的高速发展,以及各种资源数量的不断增多,为了提高效率,信息处理已经成为当前最重要的研究内容,其中涉及到切词和属性选择、信息抽取、自然语言理解、自动聚类和分类、自动摘要、自动标引和主题识别、信息结构分析、文本生...
王建会
关键词:信息处理信息抽取聚类子空间模式识别
文献传递
一种实用高效的聚类算法被引量:55
2004年
在信息处理研究领域,现有的大多数聚类算法都需要人为地给出一些参数.然而,在没有先验知识的情况下,人为地确定这些参数是十分困难的,而且现有的聚类算法的时空效率也有待于进一步提高.为了解决这一难题,首先根据样本分布特性,通过数学分析,得到确定样本空间划分间隔数的数学函数,然后,再根据样本分布特性,采用爬山的策略得到样本类的划分,最后提出了一种实用而高效的聚类算法.从多个角度分析了该算法的性能,并将该算法应用于中文文本聚类.理论分析和应用结果都表明,该算法不仅不需要人为确定参数,同时,还可以提高信息处理的时空效率和性能.
王建会申展胡运发
关键词:信息处理聚类子空间模式识别
一种实用高效的文本分类算法被引量:26
2005年
在模式识别研究领域已有的分类算法中,大多数都是基于向量空间模型的算法,其中使用范围最广的是kNN算法.但是,其中的大多数算法都因为计算复杂度太高而不适用于大规模的场合.而且,当训练样本集增大时都需要重新生成分类器,可扩展性差.为此,提出了互依赖和等效半径的概念,并将两者相结合,提出新的分类算法--基于互依赖和等效半径、易更新的分类算法SECTILE.SECTILE计算复杂度较低,而且扩展性能较好,适用于大规模场合.将SECTILE算法应用于中文文本分类,并与kNN算法和类中心向量法进行比较,结果表明,在提高分类精度的同时,SECTILE还可以大幅度提高分类速度,有利于对大规模信息样本进行实时在线的自动分类.
王建会王洪伟申展胡运发
关键词:向量空间
使用最大熵模型进行中文文本分类被引量:148
2005年
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于最大熵模型可以综合观察到各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果.但是,将最大熵模型应用在文本分类中的研究却非常少,而使用最大熵模型进行中文文本分类的研究尚未见到.使用最大熵模型进行了中文文本分类.通过实验比较和分析了不同的中文文本特征生成方法、不同的特征数目,以及在使用平滑技术的情况下,基于最大熵模型的分类器的分类性能.并且将其和Bayes,KNN,SVM三种典型的文本分类器进行了比较,结果显示它的分类性能胜于Bayes方法,与KNN和SVM方法相当,表明这是一种非常有前途的文本分类方法.
李荣陆王建会陈晓云陶晓鹏胡运发
关键词:文本分类最大熵模型N-GRAM
词语间依存关系的定量识别被引量:4
2005年
本文扩展和改进了现有的词语间依存关系定量识别算法,充分考虑词项概率分布的影响;明确区分词项之间的搭配关系、并列关系和从属关系,针对它们不同的特点,提出不同的识别算法;提出字串匹配模型;充分考虑两个词项之间相互位置的离散分布和距离的影响、以及它们的概率分布特性,提出词项间的依存强度模型,并据此构建词语间依存关系树;提出更新策略,对已经建好的依存关系树进行裁剪,并挖掘出潜在的依存关系。应用实验结果表明,本文提出的算法可以有效地识别出词语间的依存关系。
王建会王雷胡运发
关键词:计算机应用中文信息处理词语搭配
基于聚类的自动摘要被引量:2
2004年
提出了一种基于题聚类的自动摘要算法.该算法在采用统计方法的同时.又适当结合知识理解,既摆脱了领域限制,也使摘要的结果更为准确.此外,为了能够全面反映信息样本的主要内容,而又不产生信息(?)余,本文提出的摘要算法还力图适应于不同的样本、动态确定摘要长度.为此.本文首先构造出新的互依赖模型,为摘要算法选择较为准确的属性.接着,挖掘出评估语句重要性的新规则.为摘要算法提供选择为重要语句的尺度.最后,提出了一种较为客观的、基于任务的摘要性能评估算法.
王建会周水庚胡运发
关键词:聚类信息检索
共1页<1>
聚类工具0