您的位置: 专家智库 > >

江苏省高校自然科学研究项目(10KJB520018)

作品数:8 被引量:17H指数:3
相关作者:崔志明赵朋朋陈明郭建兵鲜学丰更多>>
相关机构:苏州大学江苏省现代企业信息化应用支撑软件工程技术研究开发中心苏州普达新信息技术有限公司更多>>
发文基金:江苏省高校自然科学研究项目国家自然科学基金苏州市科技支撑计划项目更多>>
相关领域:自动化与计算机技术自然科学总论更多>>

文献类型

  • 8篇中文期刊文章

领域

  • 7篇自动化与计算...
  • 1篇自然科学总论

主题

  • 5篇DEEP_W...
  • 3篇数据集
  • 3篇数据集成
  • 3篇WEB
  • 3篇DEEP
  • 2篇数据源
  • 1篇动态知识
  • 1篇虚拟化
  • 1篇虚拟化技术
  • 1篇虚拟机
  • 1篇映射
  • 1篇语义
  • 1篇语义映射
  • 1篇深网
  • 1篇数据获取
  • 1篇数据融合
  • 1篇数据融合方法
  • 1篇数据提取
  • 1篇数据源发现
  • 1篇特征信息

机构

  • 8篇苏州大学
  • 3篇江苏省现代企...
  • 2篇苏州普达新信...
  • 1篇苏州市职业大...

作者

  • 7篇崔志明
  • 6篇赵朋朋
  • 4篇陈明
  • 3篇郭建兵
  • 2篇鲜学丰
  • 2篇陆姗姗
  • 1篇张月辉
  • 1篇吴健
  • 1篇方立刚
  • 1篇梁颖红
  • 1篇时玉杰
  • 1篇王邦军
  • 1篇张广铭
  • 1篇辛洁

传媒

  • 2篇通信学报
  • 1篇计算机工程
  • 1篇计算机应用与...
  • 1篇微电子学与计...
  • 1篇计算机应用研...
  • 1篇小型微型计算...
  • 1篇计算机工程与...

年份

  • 1篇2014
  • 1篇2013
  • 4篇2012
  • 2篇2011
8 条 记 录,以下是 1-8
排序方式:
Deep Web中基于表单特征的松弛方法
2012年
在Deep Web数据集成系统中进行查询松弛时,面对众多异构数据源的属性,如何来判断松弛的先后顺序目前没有很好的方法。根据表单特征来判定属性的重要程度,提出一种针对Deep Web环境的属性松弛顺序判定方法。同时在结果的排序过程中考虑影响松弛结果与查询条件相似性的主要因素,提出了一种更为高效的排序方法。实验结果表明了该方法的有效性。
陈明郭建兵赵朋朋崔志明
关键词:深网数据集成
基于数据源依赖性的Deep Web数据融合方法被引量:2
2014年
在Deep Web数据挖掘中,不同数据源之间往往会出现数据冲突,如何解决冲突从而获得正确值(这一过程称为数据融合)是数据集成中的一个关键问题.提出一种考虑数据源之间依赖关系的数据融合方法.该方法利用贝叶斯分析确定数据源之间的依赖性,设计出检测依赖性和融合数据的迭代算法;并通过考虑数据源的准确度和属性值之间的相似性等条件扩展模型.使用该方法,对网上爬取的真实数据进行了实验,结果表明它能够显著提高数据融合的准确度,而且在大量数据源存在的情况下具有可扩展性.
陆姗姗时玉杰赵朋朋崔志明
关键词:数据集成数据融合
基于DOM树与领域本体的Web抽取方法被引量:5
2012年
为解决异构DeepWeb结果页面中数据区域及数据记录的自动抽取问题,提出一种基于DOM树与领域本体的Web抽取方法。利用数据内容特征以及领域本体库标记DOM树的节点,按照结果页面展示规律定位数据区域,根据改进的简单树匹配算法,定位数据区域及数据记录。实验结果表明,该方法定位数据区域及数据记录的F-measure值比传统的抽取方法高2.93%~6.67%。
郭建兵崔志明陈明赵朋朋
关键词:自动抽取DOM树领域本体
基于循环策略和动态知识的deep Web数据获取方法被引量:3
2012年
针对目前deep Web数据集成在数据获取方面存在代价大和查询选择效率低等问题,提出了一种基于循环策略和动态知识的deep Web数据获取方法,该方法根据同领域数据源之间的关联关系,提出使用循环策略分多次完成数据源的数据获取,同时利用集成系统已获取的数据动态构建知识,并设计了基于集成系统动态知识的查询选择方法。与现有方法比较该方法能降低数据获取的代价,提高查询选择的准确性。实验结果表明,该方法有效地提高了deep Web数据集成的数据获取效率。
鲜学丰崔志明赵朋朋梁颖红方立刚
关键词:DEEPWEB数据集成数据获取动态知识
基于MapReduce虚拟机的Deep Web数据源发现方法被引量:3
2011年
为了提高Deep Web爬虫发现和搜集数据源的效率,提出了一种融合MapReduce和虚拟化技术实现DeepWeb海量数据挖掘的并行计算方法。基于MapReduce架构提出了一个Deep Web爬虫模型,通过链接过滤分类、页面过滤分类、表单过滤分类等3个MapReduce过程找到Deep Web数据源接口,并利用虚拟机构建单机集群进行性能测试。实验结果显示该方法可以实现大规模数据的并行处理,有效提高爬虫数据源发现的效率,避免网络及物理资源的浪费,验证了云计算技术在Deep Web数据挖掘方面的可行性。
辛洁崔志明赵朋朋张广铭鲜学丰
关键词:数据源发现MAPREDUCEDEEP虚拟化技术
基于词汇树层次语义模型的图像检索算法被引量:2
2012年
解决语义鸿沟必须建立图像低层特征到高层语义的映射,针对此问题,本文提出了一种基于词汇树层次语义模型的图像检索方法.首先提取图像包含颜色信息的SIFT特征来构造图像库的特征词汇树,生成描述图像视觉信息的视觉词汇.并在此基础上利用Bayesian决策理论实现视觉词汇到语义主题信息的映射,进而构造了一个层次语义模型,并在此模型基础上完成了基于内容的语义图像检索算法.通过检索过程中用户的相关反馈,不仅可以加入正反馈图像扩展图像查询库,同时能够修正高层语义映射.实验结果表明,基于该模型的图像检索算法性能稳定,并且随着反馈次数的增加,检索效果明显提升.
张月辉吴健陆姗姗崔志明
关键词:语义映射图像检索
一种基于特征信息的Blog自动文摘研究
2011年
为了有效地对Blog进行摘要抽取,以一种合理的方式挑选出对Blog摘要抽取有帮助的评论,然后在考虑句子词频的基础上结合Blog的结构化信息和挑选出的评论信息来计算Blog句子权重。针对基于句子权重选择摘要句容易忽略次要主题的缺陷,提出一种结合Blog段落形式特点进行二次摘要抽取的解决方法。在随机下载的Blog数据中进行了实验,该方法具有较好的覆盖性和概括性。
陈明王邦军赵朋朋崔志明
关键词:特征信息
一种基于范围型属性的Deep Web数据提取方法被引量:2
2013年
针对在Deep Web数据库查询结果存在上限k的情况下,对于如何提取数据记录的问题,提出一种基于范围型属性的数据提取方法。利用范围型属性的值域特征,将其值域按照目标数据库的分布样本划分为多个子区间。实验结果表明,按照该方法划分的子区间,使得查询收益,查询饱和度和已提取数据的覆盖程度等指标均达到98.50%以上。
郭建兵崔志明陈明赵朋朋
关键词:数据提取DEEPWEB
共1页<1>
聚类工具0