您的位置: 专家智库 > >

藕军

作品数:4 被引量:11H指数:3
供职机构:合肥工业大学计算机与信息学院计算机网络系统研究所更多>>
相关领域:自动化与计算机技术文化科学更多>>

文献类型

  • 3篇期刊文章
  • 1篇学位论文

领域

  • 4篇自动化与计算...
  • 1篇文化科学

主题

  • 4篇引擎
  • 4篇搜索
  • 4篇搜索引擎
  • 4篇索引
  • 2篇信息抽取
  • 2篇WEB信息
  • 2篇WEB信息抽...
  • 2篇DEEP_W...
  • 2篇抽取
  • 1篇元搜索
  • 1篇元搜索引擎
  • 1篇元信息
  • 1篇数据库
  • 1篇数据库选择
  • 1篇中文
  • 1篇自动抽取
  • 1篇网络
  • 1篇网络蜘蛛
  • 1篇相似度
  • 1篇节点相似度

机构

  • 4篇合肥工业大学
  • 1篇南京大学

作者

  • 4篇藕军
  • 3篇任明仑
  • 1篇靳鹏
  • 1篇左春荣
  • 1篇章成志

传媒

  • 1篇情报学报
  • 1篇现代图书情报...
  • 1篇现代电子技术

年份

  • 1篇2008
  • 3篇2007
4 条 记 录,以下是 1-4
排序方式:
搜索引擎返回结果自动抽取被引量:3
2007年
提出一种从搜索引擎返回结果页面上自动抽取结果记录及后续页面链接信息并生成Wrapper的方法:对于一个有效的结果页面,通过比较其HTML标签树上节点的相似度从而识别出潜在记录块,利用启发式规则从潜在记录块中将结果记录块和后续页面链接分别识别出来,然后利用其在标签树上的位置信息分别构造Wrapper。实验结论及与已有方法的比较表明,该方法简单可行且高效。
藕军任明仑
关键词:搜索引擎WEB信息抽取节点相似度
Deep Web搜索引擎的关键技术
Deep Web中包含着数量巨大、质量很高的信息,却不能被通用搜索引擎搜索.研究Deep Web搜索引擎及其关键技术将有助于实现对Deep Web自动搜索. 首先介绍了通用搜索引擎的一般原理.然后对Deep W...
藕军
关键词:搜索引擎数据库数据库选择WEB信息抽取
文献传递
中文Deep Web的大小、质量及分布被引量:2
2008年
Deep Web中包含着大量高质量内容,当前的搜索引擎技术还不能对其进行搜索,研究Deep Web的大小、质量及分布情况将有助于找到对其进行有效搜索的方法和技术。以网络蜘蛛采集的2006年10月的数据为样本,利用统计、概率等定量方法和定性方法,首次对中文Deep Web的大小、质量及分布情况进行调查,得出概况如下:①Deep Web大小比Surface Web的大240倍以上;②包含的文件总数量和总存储量分别为507亿、11700TB;③可搜索数据库数量超过3万个;④内容质量较高;⑤内容主题分布不均匀。
藕军任明仑左春荣章成志
关键词:DEEPWEB中文WEB搜索引擎
基于网络蜘蛛的搜索引擎自动发现被引量:3
2007年
自动发现Web上大量的搜索引擎对于构造大规模元搜索引擎是有益的,提出一种用优化爬行规则的网络蜘蛛自动发现搜索引擎并提取其元信息的方法:通过优化爬行规则的网络蜘蛛爬取页面;利用专门的识别规则从爬取到的页面中识别搜索界面,并提取其相关的元信息。试验结果表明该方法简单有效,自动发现的查准率和查全率分别达到97%和91%。
藕军任明仑靳鹏
关键词:元搜索引擎网络蜘蛛元信息
共1页<1>
聚类工具0