您的位置: 专家智库 > >

吴羽

作品数:11 被引量:10H指数:2
供职机构:浙江大学计算机科学与技术学院更多>>
发文基金:国家自然科学基金浙江省科技计划项目浙江省重大国际科技合作项目更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 5篇期刊文章
  • 4篇会议论文
  • 1篇学位论文
  • 1篇科技成果

领域

  • 11篇自动化与计算...

主题

  • 4篇索引
  • 3篇搜索
  • 3篇细粒度
  • 3篇聚类
  • 3篇聚类算法
  • 3篇WEB对象
  • 3篇查询
  • 2篇引擎
  • 2篇搜索引擎
  • 2篇接口
  • 2篇接口集成
  • 2篇非结构化
  • 2篇DEEP_W...
  • 2篇查询接口
  • 2篇查询接口集成
  • 2篇垂直搜索
  • 2篇垂直搜索引擎
  • 1篇调度
  • 1篇调度算法
  • 1篇对象缓存

机构

  • 11篇浙江大学
  • 1篇工商银行

作者

  • 11篇吴羽
  • 8篇江锦华
  • 7篇陈刚
  • 6篇寿黎但
  • 4篇盛振华
  • 2篇胡天磊
  • 2篇陶然
  • 2篇陈刚
  • 1篇陈纯
  • 1篇曹晖
  • 1篇高云君
  • 1篇李晓燕
  • 1篇王灿
  • 1篇周佳庆
  • 1篇贝毅君
  • 1篇卜佳俊
  • 1篇陈珂
  • 1篇陈刚

传媒

  • 4篇浙江大学学报...
  • 2篇NDBC20...
  • 1篇计算机研究与...
  • 1篇第26届中国...

年份

  • 2篇2012
  • 3篇2011
  • 2篇2010
  • 4篇2009
11 条 记 录,以下是 1-10
排序方式:
基于树合并的Deep Web查询接口集成
随着在线数据库应用的流行,整个互联网已经被迅速"深化".对于某一特定领域的deep Web,不同的站点往往会提供不同查询能力的查询接口.为了能够集成同一领域内的各个数据源,首先要解决的问题就是查询接口的集成.但是面对数量...
陶然江锦华吴羽陈刚
关键词:查询接口集成树模型
文献传递
基于路径连接的XML复杂小枝模式查询处理被引量:1
2011年
针对可扩展标记语言(XML)查询中具有嵌套OR谓词的复杂小枝模式查询处理,提出一种基于路径连接的查询方法.该方法以路径为分解粒度,结合分支扩展(AOBE)的概念,通过路径连接过程实现对复杂小枝模式查询的整体处理.为了进一步提高算法效率,在已有研究的基础上挖掘相应的优化规则,利用索引跳过那些明显不参与连接的元素的访问和计算.与已有算法相比,基于路径连接的查询方法大大简化了复杂小枝模式查询处理过程,只访问查询叶节点对应的元素,可以显著减少结构连接的操作数目和扫描元素的个数.实验结果表明,该方法能够有效地改善复杂小枝模式查询处理的性能.
江锦华吴羽胡天磊陈刚
关键词:小枝模式索引
实时垂直搜索引擎对象缓存优化策略被引量:2
2011年
针对实时垂直搜索引擎搜索对象热门度多变和数据抓取由查询驱动等问题,提出一种全新的实时垂直搜索引擎对象缓存优化策略.基于对象及属性间的关联设计热门对象预测模型,预测热门对象的变化趋势;基于用户查询及对象变化符合泊松过程的特点,推导最大化数据新鲜度的计算方法,从理论上给出资源分配和动态平衡的最优策略.大量的对比实验验证了新的缓存优化策略在较少开销增长的前提下,用户查询结果平均新鲜度和准确率均明显优于传统固定频率的缓存策略.
周佳庆吴羽江锦华陈刚董轶
关键词:缓存策略实时搜索垂直搜索搜索引擎
互联网海量数据存储、管理与搜索平台研制及产业化应用
陈刚陈纯寿黎但陈珂胡天磊卜佳俊高云君贝毅君王灿曹晖李晓燕吴羽江锦华
该项目通过突破面向互联网海量数据存储、处理、检索、反垃圾、个性化推荐、性能优化等一系列关键技术,实现了多项自主创新,成果包括分布式基础存储平台、全系列检索服务、共性支撑服务及配套管理、应用支撑服务模块及开放接口、异构数据...
关键词:
关键词:互联网多媒体检索海量数据存储
InfoSigs:一种面向WEB对象的细粒度聚类算法
面向WEB对象的细粒度聚类已经成为学术界研究的热点。然而现有大多数聚类模型只关注如何对文本内容或文章主题进行聚类,聚类结果粒度较粗,无法满足大规模网络信息检索的质量要求.针对上述挑战,本文挖掘WEB文档中词汇间的树状概率...
盛振华吴羽江锦华寿黎但陈刚
文献传递
InfoSigs:一种面向Web对象的细粒度聚类算法被引量:5
2010年
面向Web对象的细粒度聚类已经成为学术界研究的热点.然而现有大多数聚类模型只关注如何对文本内容或文章主题进行聚类,聚类结果粒度较粗,无法满足大规模网络信息检索的质量要求.针对上述挑战,充分挖掘Web文档中词汇间的树状概率层次关系,提出一种以词汇信息分布作为特征标志的聚类算法InfoSigs,实现对Web对象的细粒度聚类.算法构建一个信息传递有向无环图,根据词汇在图中信息分布的集中度赋予其合理的权重,产生更具代表性的特征向量;同时算法提出了一个自适应的记录合并模型,有效提高记录簇中记录间的相似度,减少噪音对合并过程的影响.实验结果表明,InfoSigs算法比传统聚类算法—I-Match和Shingling—在F-Measure值上平均约有21.3%的提高,可以有效地运用到多领域Web对象的聚类问题.
盛振华吴羽江锦华寿黎但陈刚
关键词:WEB对象
CB-LSH:基于压缩位图的高性能LSH索引算法被引量:2
2012年
由于传统局部敏感散列(LSH)算法的删除性能不足,阻碍了LSH算法在实际产品中的应用.提出一种基于压缩位图的改进方法,通过引入压缩位图改良传统LSH算法的桶中数据结构,以及使用标记清除策略进行算法流程优化,解决传统LSH索引实时删除性能差的问题.理论分析证明:基于压缩位图的LSH(CB-LSH)算法可以显著降低算法的空间复杂度和时间复杂度.实验结果支撑了理论分析的结论,相对于传统LSH算法,CB-LSH在降低内存消耗的同时,可显著提高索引删除、数据插入和数据查询的性能.在大型项目中的应用实践验证了在线实时更新的海量多媒体数据检索系统中,CB-LSH索引算法对于多媒体数据的高维索引是有效可行的,并显著提升了性能、降低了资源消耗.
吴羽寿黎但陈刚
关键词:位图索引高维索引
TrigSigs:一种有效的非结构化记录关联合并算法
2010年
为了解决从网络数据源提取的非结构化数据的处理问题,提出一种基于触发对的聚类算法TrigSigs,利用触发对挖掘非结构化数据中隐含属性间的关联关系作为辨别实体的标志.该算法能够聚集对辨别实体起到关键作用的特征组合,过滤噪音词汇,并且根据辨别实体的分辨力,为每个特征词汇赋予合理的权重,使记录的特征向量对辨别实体更具代表性,最终提高聚类结果的细粒度,很好地解决了非结构化数据的记录关联合并问题.实验结果表明:该算法可以过滤绝大部分噪音词汇,并且根据词汇的分辨力合理分配权重,使最终聚类结果的准确率有很大的提升.
吴羽盛振华寿黎但陈刚
关键词:非结构化数据
基于树合并的Deep Web查询接口集成
随着在线数据库应用的流行,整个互联网已经被迅速“深化”.对于某一特定领域的deep Web,不同的站点往往会提供不同查询能力的查询接口.为了能够集成同一领域内的各个数据源,首先要解决的问题就是查询接口的集成.但是面对数量...
陶然江锦华吴羽陈刚
关键词:查询接口数据库
文献传递
InfoSigs:一种面向WEB对象的细粒度聚类算法
面向WEB对象的细粒度聚类已经成为学术界研究的热点。然而现有大多数聚类模型只关注如何对文本内容或文章主题进行聚类,聚类结果粒度较粗,无法满足大规模网络信息检索的质量要求。针对上述挑战,本文挖掘WEB文档中词汇间的树状概率...
盛振华吴羽江锦华寿黎但陈刚
关键词:信息检索
文献传递
共2页<12>
聚类工具0