公共文化服务平台

GHOST:作者名字排歧系统: 名字二义性降低了文档检索的性能,在数据清理过程中消除名字二义性十分重要.针对名字二义性的研究,提供了一个名字排歧框架的演示系统,名为GHOST(graphical framework for name disambigu...; 蒲旭王建勇范小明; 关键词：相似度聚类; 文献传递

中文深度万维网数据库的现状研究被引量：7: 2011年; 深度万维网(Deep Web)已成为万维网上十分重要的资源,是数据库领域的研究热点.目前已有的多数研究主要集中在深度万维网发现、查询接口集成以及查询结果处理等技术层面.然而对于这个超出表面万维网所涵盖信息数百倍的宝贵资源,人们目前还缺乏足够的了解和认识.对于一些基本问题,例如:(1)中文深度万维网的具体规模有多大;(2)中文深度万维网在各个领域上的分布如何等,目前还没有人能给出一个明确的回答.针对这一状况,文中采用数据挖掘中的分类技术,对中文万维网上的深度万维网进行识别,并将其按所在领域的不同进行划分,对以上提到的两个基本问题给出了客观的度量,并对中文深度万维网的现状作了一些相关的统计.文中将主要介绍以100万中文万维网网站首页数据为基础,如何采用分类的技术来解答以上提到的两个问题.实验结果表明,当前中文万维网上,拥有60多万个深度万维网查询接口,其中一半以上属于商业领域,这比较客观地反应了当前我国万维网的使用现状.同时,中文深度万维网中复杂查询接口和简单查询接口约各占一半,而当前的研究主要集中在对复杂查询接口上,对简单查询接口的研究却相对较少,这一结论提醒我们在今后要加强对简单查询接口的相关研究.; 刘玉奎周立柱范举; 关键词：数据库查询接口

Ginix: Generalized Inverted Index for Keyword Search: 2013年; Keyword search has become a ubiquitous method for users to access text data in the face of information explosion. Inverted lists are usually used to index underlying documents to retrieve documents according to a set of keywords efficiently. Since inverted lists are usually large, many compression techniques have been proposed to reduce the storage space and disk I/O time. However, these techniques usually perform decompression operations on the fly, which increases the CPU time. This paper presents a more efficient index structure, the Generalized INverted IndeX （Ginix）, which merges consecutive IDs in inverted lists into intervals to save storage space. With this index structure, more efficient algorithms can be devised to perform basic keyword search operations, i.e., the union and the intersection operations, by taking the advantage of intervals. Specifically, these algorithms do not require conversions from interval lists back to ID lists. As a result, keyword search using Ginix can be more efficient than those using traditional inverted indices. The performance of Ginix is also improved by reordering the documents in datasets using two scalable algorithms. Experiments on the performance and scalability of Ginix on real datasets show that Ginix not only requires less storage space, but also improves the keyword search performance, compared with traditional inverted indexes.; Hao WuGuoliang LiLizhu Zhou

大规模集群上基于预散列的连接处理和优化: 随着现代应用中数据规模的迅速增长,以及复杂处理要求的出现,传统的集中式和分布式数据处理技术已经不能满足需要;而大规模集群由于具有可伸缩性、高可用性、容错性的优势,逐渐为数据密集型应用所广泛使用.这里针对大规模集群上数据连...; 常洞霞钱卫宁周傲英; 关键词：MAPREDUCE 索引; 文献传递

基于日志项在线聚合的空间查询自动补全技术: 随着移动互联网的日益增长,空间关键词检索已成为管理空间文本数据库的重要手段.由于在移动终端上进行输入比较困难,并且用户的查询意图在空间中的分布比较多样,根据用户的不完整查询快速地推荐出完整查询的技术——即查询自动补全技术...; 吴昊周立柱; 文献传递

基于关键词的深度万维网数据库选择被引量：11: 2011年; 该文提出一种基于关键词的深度万维网查询方法:用户用关键词的方式提交查询,该方法在线地选择能够反映查询意图并且提供高质量结果的万维网数据库.这种方法既避免了深度万维网数据抓取这一代价高、难度大的操作,又可支持多领域的数据库上的关键词查询,从而能够与现有的搜索引擎实现无缝集成.文中侧重于讨论基于关键词的数据库选择,从以下两个方面解决这一问题所涉及的挑战:(1)提出了一种度量关键词-领域属性关联的相关性模型,并设计了基于随机游动的算法从查询日志中发现潜在的关键词-属性关联;(2)给出了一种新的数据采样方法,并用于基于采样的数据库-查询的相关性模型中,最终解决深度万维网的数据库选择问题.在中文深度万维网真实数据集上的实验表明:提出的方法能够有效地选择与关键词查询相关的数据库,提供高质量的结果.; 范举周立柱; 关键词：关键词查询数据库选择

基于简单查询接口的Web数据库模式识别被引量：3: 2010年; Web数据库(WDB)提供了不同形式的数据查询接口,基于关键字的简单查询接口(SQI)是其中一种被广泛应用的查询接口,而现有研究主要讨论通过复杂查询接口对WDB作探测查询和模式识别。为此该文提出了一种基于SQI的WDB探测查询和模式识别方法。根据SQI的查询特性提出了基于SQI的满条件查询定义及其生成策略,用以识别接口模式;在结果模式识别中,通过对结果页面中的非查询关键词作扩展识别,提高了结果模式识别的属性召回率。在图书、电影和手机3个领域共35个WDB上的实验证明了该方法可以准确高效地识别数据库模式。; 林玲周立柱; 关键词：WEB数据库模式识别

TLGM-QL:基于图模型的Web数据分析性查询语言被引量：1: 2009年; 随着万维网规模和应用的飞速发展,如何有效存储和利用Web数据已成为计算机科学诸多研究领域的巨大挑战。针对这些迫切的需要,介绍一种新的Web分析工具TLGM-QL(tagged and labeled graph modelquery language),用户只需要编写描述性的类SQL分析性查询语句,即可获得对于以图形式组织的Web数据分析结果。用户不需要关心底层的实现,系统可将TLGM-QL查询语句生成物理执行计划分配给集群高度并行执行,最终返回查询结果。; 马强陶导钱卫宁周傲英; 关键词：查询语言分布式计算

CWI中的分布式图数据存储与查询: 2009年; 现存的Web分析技术大多基于数据的文本内容,而忽视了数据本身的结构信息。为此,介绍CWI——一种新的海量数据分析和查询工具。作为CWI的一部分,TLGM和TLGM-Ql实现了对于Web数据内容和结构的查询分析,并且在分布式环境下实现了TLGM的图数据存储,实现了TLGM-QL的4个基本算子,实验证明该结构具有良好的平衡性和可扩展性。; 陶导马强杨譞钱卫宁周傲英; 关键词：分布式存储索引负载均衡

基于活跃用户特征的论坛广告投放: 网络论坛用户众多,广告投放市场大,而目前针对网络论坛的个性化广告却很少,这是因为论坛数据庞杂,信息更新快,实现广告的精准投放有困难.提出了一个基于活跃用户特征词分析的论坛广告个性化投放模型,在模型中提取论坛活跃用户,对活...; 张召钱卫宁周傲英; 关键词：广告投放用户特征; 文献传递

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

国家自然科学基金(60833003)

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

国家自然科学基金(60833003)

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈