您的位置: 专家智库 > >

林玲

作品数:4 被引量:232H指数:3
供职机构:清华大学信息科学技术学院计算机科学与技术系更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 3篇期刊文章
  • 1篇会议论文

领域

  • 3篇自动化与计算...

主题

  • 3篇搜索
  • 2篇爬虫
  • 2篇聚焦爬虫
  • 1篇元搜索
  • 1篇上下文
  • 1篇上下文信息
  • 1篇数据抽取
  • 1篇数据库
  • 1篇启发式搜索
  • 1篇网页
  • 1篇网页分类
  • 1篇网站
  • 1篇文本检索
  • 1篇链接
  • 1篇链接分析
  • 1篇模式识别
  • 1篇本体
  • 1篇本体描述
  • 1篇WEB数据库
  • 1篇WEB网

机构

  • 4篇清华大学

作者

  • 4篇周立柱
  • 4篇林玲
  • 1篇郭奇
  • 1篇李刚

传媒

  • 1篇清华大学学报...
  • 1篇计算机应用
  • 1篇计算机科学

年份

  • 1篇2010
  • 2篇2007
  • 1篇2005
4 条 记 录,以下是 1-4
排序方式:
聚焦爬虫技术研究综述被引量:223
2005年
因特网的迅速发展对万维网信息的查找与发现提出了巨大的挑战。对于大多用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页。为了克服通用搜索引擎的以上不足,提出了面向主题的聚焦爬虫的研究。至今,聚焦爬虫已成为有关万维网的研究热点之一。文中对这一热点研究进行综述,给出聚焦爬虫(Focused Crawler)的基本概念,概述其工作原理;并根据研究的发展现状,对聚焦爬虫的关键技术(抓取目标描述,网页分析算法和网页搜索策略等)作系统介绍和深入分析。在此基础上,提出聚焦爬虫今后的一些研究方向,包括面向数据分析和挖掘的爬虫技术研究,主题的描述与定义,相关资源的发现,W eb数据清洗,以及搜索空间的扩展等。
周立柱林玲
关键词:聚焦爬虫链接分析文本检索数据抽取本体描述元搜索
领域相关的Web网站抓取方法被引量:9
2007年
本文提出了一种抓取领域相关的Web站点的方法,可以在较小的代价下准确地收集用户所关心领域内的网站。这种方法主要改进了传统的聚焦爬虫(Focused Crawler)技术,首先利用Meta-Search技术来改进传统Crawler的通过链接分析来抓取网页的方法,而后利用启发式搜索大大降低了搜索代价,通过引入一种评价领域相关性的打分方法,达到了较好的准确率。本文详细地描述了上述算法并通过详细的实验验证了算法的效率和效果。
李刚周立柱郭奇林玲
关键词:META-SEARCH启发式搜索
一种高效的网页分类和数据对象识别集成方法
b已经成为一个日益重要的数据源,越来越多的Web应用需要从特定领域的数据密集型网页上获取结构化的数据对象。网页中的数据对象识别问题成为今年来的研究热点,但是其前端的数据密集型相关网页的自动发现仍然是一个亟待解决的问题。同...
林玲周立柱
关键词:垂直搜索上下文信息网页分类
基于简单查询接口的Web数据库模式识别被引量:3
2010年
Web数据库(WDB)提供了不同形式的数据查询接口,基于关键字的简单查询接口(SQI)是其中一种被广泛应用的查询接口,而现有研究主要讨论通过复杂查询接口对WDB作探测查询和模式识别。为此该文提出了一种基于SQI的WDB探测查询和模式识别方法。根据SQI的查询特性提出了基于SQI的满条件查询定义及其生成策略,用以识别接口模式;在结果模式识别中,通过对结果页面中的非查询关键词作扩展识别,提高了结果模式识别的属性召回率。在图书、电影和手机3个领域共35个WDB上的实验证明了该方法可以准确高效地识别数据库模式。
林玲周立柱
关键词:WEB数据库模式识别
共1页<1>
聚类工具0