您的位置: 专家智库 > >

国家自然科学基金(60833003)

作品数:6 被引量:19H指数:3
相关作者:周立柱范举马强钱卫宁周傲英更多>>
相关机构:清华大学华东师范大学复旦大学更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 6篇期刊文章
  • 4篇会议论文

领域

  • 9篇自动化与计算...
  • 1篇经济管理

主题

  • 5篇查询
  • 4篇数据库
  • 2篇索引
  • 2篇分布式
  • 1篇用户
  • 1篇用户特征
  • 1篇日志
  • 1篇散列
  • 1篇数据存储
  • 1篇数据分析
  • 1篇数据库选择
  • 1篇图模型
  • 1篇排歧
  • 1篇文本数据
  • 1篇文本数据库
  • 1篇相似度
  • 1篇名字
  • 1篇模式识别
  • 1篇接口
  • 1篇聚类

机构

  • 5篇清华大学
  • 4篇华东师范大学
  • 2篇复旦大学

作者

  • 4篇周立柱
  • 3篇周傲英
  • 3篇钱卫宁
  • 2篇陶导
  • 2篇范举
  • 2篇马强
  • 1篇吴昊
  • 1篇范小明
  • 1篇王建勇
  • 1篇蒲旭
  • 1篇林玲
  • 1篇张召
  • 1篇杨譞
  • 1篇刘玉奎

传媒

  • 2篇计算机学报
  • 2篇广西师范大学...
  • 1篇清华大学学报...
  • 1篇Tsingh...

年份

  • 1篇2013
  • 1篇2012
  • 2篇2011
  • 3篇2010
  • 3篇2009
6 条 记 录,以下是 1-10
排序方式:
GHOST:作者名字排歧系统
名字二义性降低了文档检索的性能,在数据清理过程中消除名字二义性十分重要.针对名字二义性的研究,提供了一个名字排歧框架的演示系统,名为GHOST(graphical framework for name disambigu...
蒲旭王建勇范小明
关键词:相似度聚类
文献传递
中文深度万维网数据库的现状研究被引量:7
2011年
深度万维网(Deep Web)已成为万维网上十分重要的资源,是数据库领域的研究热点.目前已有的多数研究主要集中在深度万维网发现、查询接口集成以及查询结果处理等技术层面.然而对于这个超出表面万维网所涵盖信息数百倍的宝贵资源,人们目前还缺乏足够的了解和认识.对于一些基本问题,例如:(1)中文深度万维网的具体规模有多大;(2)中文深度万维网在各个领域上的分布如何等,目前还没有人能给出一个明确的回答.针对这一状况,文中采用数据挖掘中的分类技术,对中文万维网上的深度万维网进行识别,并将其按所在领域的不同进行划分,对以上提到的两个基本问题给出了客观的度量,并对中文深度万维网的现状作了一些相关的统计.文中将主要介绍以100万中文万维网网站首页数据为基础,如何采用分类的技术来解答以上提到的两个问题.实验结果表明,当前中文万维网上,拥有60多万个深度万维网查询接口,其中一半以上属于商业领域,这比较客观地反应了当前我国万维网的使用现状.同时,中文深度万维网中复杂查询接口和简单查询接口约各占一半,而当前的研究主要集中在对复杂查询接口上,对简单查询接口的研究却相对较少,这一结论提醒我们在今后要加强对简单查询接口的相关研究.
刘玉奎周立柱范举
关键词:数据库查询接口
Ginix: Generalized Inverted Index for Keyword Search
2013年
Keyword search has become a ubiquitous method for users to access text data in the face of information explosion. Inverted lists are usually used to index underlying documents to retrieve documents according to a set of keywords efficiently. Since inverted lists are usually large, many compression techniques have been proposed to reduce the storage space and disk I/O time. However, these techniques usually perform decompression operations on the fly, which increases the CPU time. This paper presents a more efficient index structure, the Generalized INverted IndeX (Ginix), which merges consecutive IDs in inverted lists into intervals to save storage space. With this index structure, more efficient algorithms can be devised to perform basic keyword search operations, i.e., the union and the intersection operations, by taking the advantage of intervals. Specifically, these algorithms do not require conversions from interval lists back to ID lists. As a result, keyword search using Ginix can be more efficient than those using traditional inverted indices. The performance of Ginix is also improved by reordering the documents in datasets using two scalable algorithms. Experiments on the performance and scalability of Ginix on real datasets show that Ginix not only requires less storage space, but also improves the keyword search performance, compared with traditional inverted indexes.
Hao WuGuoliang LiLizhu Zhou
大规模集群上基于预散列的连接处理和优化
随着现代应用中数据规模的迅速增长,以及复杂处理要求的出现,传统的集中式和分布式数据处理技术已经不能满足需要;而大规模集群由于具有可伸缩性、高可用性、容错性的优势,逐渐为数据密集型应用所广泛使用.这里针对大规模集群上数据连...
常洞霞钱卫宁周傲英
关键词:MAPREDUCE索引
文献传递
基于日志项在线聚合的空间查询自动补全技术
随着移动互联网的日益增长,空间关键词检索已成为管理空间文本数据库的重要手段.由于在移动终端上进行输入比较困难,并且用户的查询意图在空间中的分布比较多样,根据用户的不完整查询快速地推荐出完整查询的技术——即查询自动补全技术...
吴昊周立柱
文献传递
基于关键词的深度万维网数据库选择被引量:11
2011年
该文提出一种基于关键词的深度万维网查询方法:用户用关键词的方式提交查询,该方法在线地选择能够反映查询意图并且提供高质量结果的万维网数据库.这种方法既避免了深度万维网数据抓取这一代价高、难度大的操作,又可支持多领域的数据库上的关键词查询,从而能够与现有的搜索引擎实现无缝集成.文中侧重于讨论基于关键词的数据库选择,从以下两个方面解决这一问题所涉及的挑战:(1)提出了一种度量关键词-领域属性关联的相关性模型,并设计了基于随机游动的算法从查询日志中发现潜在的关键词-属性关联;(2)给出了一种新的数据采样方法,并用于基于采样的数据库-查询的相关性模型中,最终解决深度万维网的数据库选择问题.在中文深度万维网真实数据集上的实验表明:提出的方法能够有效地选择与关键词查询相关的数据库,提供高质量的结果.
范举周立柱
关键词:关键词查询数据库选择
基于简单查询接口的Web数据库模式识别被引量:3
2010年
Web数据库(WDB)提供了不同形式的数据查询接口,基于关键字的简单查询接口(SQI)是其中一种被广泛应用的查询接口,而现有研究主要讨论通过复杂查询接口对WDB作探测查询和模式识别。为此该文提出了一种基于SQI的WDB探测查询和模式识别方法。根据SQI的查询特性提出了基于SQI的满条件查询定义及其生成策略,用以识别接口模式;在结果模式识别中,通过对结果页面中的非查询关键词作扩展识别,提高了结果模式识别的属性召回率。在图书、电影和手机3个领域共35个WDB上的实验证明了该方法可以准确高效地识别数据库模式。
林玲周立柱
关键词:WEB数据库模式识别
TLGM-QL:基于图模型的Web数据分析性查询语言被引量:1
2009年
随着万维网规模和应用的飞速发展,如何有效存储和利用Web数据已成为计算机科学诸多研究领域的巨大挑战。针对这些迫切的需要,介绍一种新的Web分析工具TLGM-QL(tagged and labeled graph modelquery language),用户只需要编写描述性的类SQL分析性查询语句,即可获得对于以图形式组织的Web数据分析结果。用户不需要关心底层的实现,系统可将TLGM-QL查询语句生成物理执行计划分配给集群高度并行执行,最终返回查询结果。
马强陶导钱卫宁周傲英
关键词:查询语言分布式计算
CWI中的分布式图数据存储与查询
2009年
现存的Web分析技术大多基于数据的文本内容,而忽视了数据本身的结构信息。为此,介绍CWI——一种新的海量数据分析和查询工具。作为CWI的一部分,TLGM和TLGM-Ql实现了对于Web数据内容和结构的查询分析,并且在分布式环境下实现了TLGM的图数据存储,实现了TLGM-QL的4个基本算子,实验证明该结构具有良好的平衡性和可扩展性。
陶导马强杨譞钱卫宁周傲英
关键词:分布式存储索引负载均衡
基于活跃用户特征的论坛广告投放
网络论坛用户众多,广告投放市场大,而目前针对网络论坛的个性化广告却很少,这是因为论坛数据庞杂,信息更新快,实现广告的精准投放有困难.提出了一个基于活跃用户特征词分析的论坛广告个性化投放模型,在模型中提取论坛活跃用户,对活...
张召钱卫宁周傲英
关键词:广告投放用户特征
文献传递
共1页<1>
聚类工具0