高岭
- 作品数:5 被引量:69H指数:4
- 供职机构:苏州大学计算机科学与技术学院智能化信息处理技术研究所更多>>
- 发文基金:教育部科学技术研究重点项目江苏省高技术研究计划项目更多>>
- 相关领域:自动化与计算机技术更多>>
- Deep Web查询接口的自动判定被引量:29
- 2007年
- 传统搜索引擎仅可以索引浅层Web页面,然而在网络深处隐含着大量、高质量的信息,传统搜索引擎由于技术原因不能索引这些被称之为Deep Web的页面。由于查询接口是Deep Web的唯一入口,因此要获取Deep Web信息就需判定哪些网页表单是Deep Web查询接口。文中介绍了一种利用朴素贝叶斯分类算法自动判定网页表单是否为Deep Web查询接口的方法,并实验验证了该方法的有效性。
- 高岭赵朋朋崔志明
- 关键词:深网网页表单特征提取朴素贝叶斯分类
- Deep Web分类搜索引擎关键技术研究
- 随着World Wide Web/(WWW/)的飞速发展,整个Web信息已经被各种各样可搜索的在线数据库所深化。这些信息被隐藏在Web查询接口之后,由站点后台数据库动态产生,而传统搜索引擎受技术限制无法对它们进行索引,我...
- 高岭
- 关键词:深网搜索引擎聚焦爬虫
- 文献传递
- DeepSearcher:一个中文Deep Web分类搜索引擎
- 搜索引擎可以很好的搜索出大部分可索引页面,然而,Intrnet上有大量的页面是由后台数据库动态产生的,传统的搜索引擎搜索不出这部分页面,我们称之为Deep Web.研究表明Deep Web信息一般存储在数据库中,和静态页...
- 赵朋朋高岭崔志明
- 关键词:数据集成搜索引擎
- 文献传递
- 关于中国Deep Web的规模、分布和结构被引量:22
- 2007年
- 随着Web数据库的广泛应用,Web正在加速的"深化",大量的高质量的信息隐藏在Deep Web中.基于IP采样的方法,对1,000,000个IP样本进行了分析统计,揭示了2006年初中国Deep Web的规模、分布和结构.主要结论包括有:1中国Deep Web查询接口往往位于站点浅层,94.6%的Deep Web查询接口出现在站点的前3层;2中国Deep Web大约有24,000个站点,28,000个Web数据库和74,000个查询接口;3中国Deep Web大部分是非结构化的,其中64%是非结构化的Web数据库;4中国Deep Web分布于多种不同的主题领域;5目前主要的中文搜索引擎已覆盖国内Deep Web大约二分之一的页面.
- 赵朋朋崔志明高岭仲华
- 关键词:DEEPWEBWEB数据库查询接口
- 基于查询接口特征的Deep Web数据源自动分类被引量:20
- 2006年
- 搜索引擎可以很好地搜索出大部分可索引页面,然而,Internet上有大量的页面是由后台数据库动态产生的,传统的搜索引擎搜索不出这部分页面,我们称之为DeepWeb。其中大部分DeepWeb是结构化的,它提供结构化的查询接口和结构化的结果。把这些结构化的DeepWeb数据源按所属领域进行组织可以方便用户浏览这些有价值的资源,并且这也是大规模DeepWeb集成搜索的一个关键步骤。提出了一种基于查询接口特征的DeepWeb数据源自动分类方法,并通过实验验证该方法是非常有效的。
- 赵朋朋高岭崔志明
- 关键词:DEEPWEB数据集成