申展
- 作品数:11 被引量:158H指数:6
- 供职机构:复旦大学信息科学与工程学院计算机与信息技术系更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 全文检索模型综述被引量:25
- 2004年
- 全文检索的应用导致了信息检索领域的一场革命,是文档数据库研究的核心。全文检索的首要问题是全文检索模型的选择。本文介绍了目前国内外主要的全文拴索模型,总结了全文检索模型的评价标准,按照此标准对各种模型进行了分析比较,并对全文检索模型构建中一些关键问题进行了分析。
- 申展江宝林陈祎唐磊胡运发
- 关键词:信息检索文档数据库倒排表互关联后继树位图
- 基于互关联后继树的时间序列相似性查询被引量:8
- 2004年
- 时间序列的相似性查询是分析时间序列变化规律的一种重要方法 ,对于时间序列的分类、预测以及知识发现都具有重要的现实意义 提出了一种基于分段技术的、同时支持可变长度的快速相似性查询方法 其主要思想是 :首先依据序列变化的重要点将序列逐步分段 ,抽取各子段的变化特征 ,通过分类方法将其转变成符号序列 在此基础上 ,引入一种称为互关联后继树的全文索引技术 ,从而实现序列的快速相似性查询 ,其时间复杂度降到了O(L) ,此外 。
- 曾海泉宋扬申展胡运发
- 关键词:时间序列相似性查询互关联后继树
- 基于互关联后继树的Web日志挖掘技术被引量:3
- 2004年
- 本文将互关联后继树 (Inter RelatedSuffixTree ,IRST)模型应用于Web日志事务挖掘 ,构造Web日志事务集的互关联后继树结构 ,从中挖掘频繁路径。
- 江宝林张川申展葛家翔胡运发
- 关键词:INTERNETWEB日志挖掘互关联后继树网站
- 移动ERP代理模型的设计与实现被引量:2
- 2004年
- 提出了一个移动代理模型MEAM (Mobile-ERP Agent Model),改善了现有的移动代理方案连接后台ERP系统兼容性差等问题。关键技术是构造了类似于数据库JDBC思想的ERP连接层的概念,使得MEAM在理论上与后台ERP系统的具体选择无关。在具体实现时MEAM选择了XML、J2EE等流行的技术来保证系统的健壮性和跨平台性。通过对MEAM的设计,还对EJB组件重用技术进行了具体实现。
- 张谧吴爱华申展施伯乐
- 关键词:移动代理企业资源计划J2EE可扩展标记语言PDA
- 一种实用高效的文本分类算法被引量:26
- 2005年
- 在模式识别研究领域已有的分类算法中,大多数都是基于向量空间模型的算法,其中使用范围最广的是kNN算法.但是,其中的大多数算法都因为计算复杂度太高而不适用于大规模的场合.而且,当训练样本集增大时都需要重新生成分类器,可扩展性差.为此,提出了互依赖和等效半径的概念,并将两者相结合,提出新的分类算法--基于互依赖和等效半径、易更新的分类算法SECTILE.SECTILE计算复杂度较低,而且扩展性能较好,适用于大规模场合.将SECTILE算法应用于中文文本分类,并与kNN算法和类中心向量法进行比较,结果表明,在提高分类精度的同时,SECTILE还可以大幅度提高分类速度,有利于对大规模信息样本进行实时在线的自动分类.
- 王建会王洪伟申展胡运发
- 关键词:向量空间
- 频繁有序标号树的频繁约束挖掘
- 1.引言在数据集中挖掘频繁模式是数据挖掘研究中的关键部分。随着XML、生物信息、网络路径等新数据(它们都能使用树或图来表示)的出现,很多研究都着重于复杂数据的频繁结构挖掘,如文[1,2,5]。频繁树挖掘就是要找出那些用树...
- 吴爱华汪卫申展王晨施伯乐
- 关键词:DATAMINING
- 文献传递
- 基于互关联后继树的频繁模式挖掘研究被引量:3
- 2004年
- 关联规则挖掘是数据挖掘的一个重要的研究内容,而产生频繁模式集是关联规则挖掘的第1步工作。很多传统的频繁模式挖掘算法都需要产生候选模式集,因而效率很低。该文提出了一种不需要产生候选集,而直接构造频繁集的频繁模式挖掘算法——基于互关联后继树的频繁模式挖掘算法。实验证明,该算法具有较好的性能。
- 申展江宝林唐磊胡运发
- 关键词:关联规则频繁模式挖掘互关联后继树模型数据挖掘
- 一种实用高效的聚类算法被引量:55
- 2004年
- 在信息处理研究领域,现有的大多数聚类算法都需要人为地给出一些参数.然而,在没有先验知识的情况下,人为地确定这些参数是十分困难的,而且现有的聚类算法的时空效率也有待于进一步提高.为了解决这一难题,首先根据样本分布特性,通过数学分析,得到确定样本空间划分间隔数的数学函数,然后,再根据样本分布特性,采用爬山的策略得到样本类的划分,最后提出了一种实用而高效的聚类算法.从多个角度分析了该算法的性能,并将该算法应用于中文文本聚类.理论分析和应用结果都表明,该算法不仅不需要人为确定参数,同时,还可以提高信息处理的时空效率和性能.
- 王建会申展胡运发
- 关键词:信息处理聚类子空间模式识别
- 互关联后继树模型及其实现被引量:16
- 2005年
- 全文检索是文本数据库研究的核心 ,而全文检索的首要问题是全文检索模型的选择。本文介绍了一种新颖的全文检索模型———互关联后继树模型及其实现 ,并将该模型与传统的倒排表模型进行了比较 。
- 申展江宝林张谧唐磊胡运发
- 关键词:文本数据库互关联后继树模型信息检索
- 结合网站内容和结构进行的Web日志挖掘被引量:23
- 2004年
- 提出一种以聚类为基础的Web日志挖掘方法:从Web日志事务、Web站点内容和Web站点结构3个不同方面来聚类页面集合,并通过将用户的访问记录和页面聚集进行匹配和相关度计算,来预测用户感兴趣的页面。
- 江宝林申展张川葛家翔胡运发
- 关键词:WEB日志挖掘聚类