国家自然科学基金(60205007) 作品数:17 被引量:244 H指数:8 相关作者: 印鉴 陈忆群 张钢 汤庸 戴东波 更多>> 相关机构: 中山大学 南京大学 广州美术学院 更多>> 发文基金: 国家自然科学基金 广东省自然科学基金 广东省科技计划工业攻关项目 更多>> 相关领域: 自动化与计算机技术 文化科学 电子电信 更多>>
结合使用挖掘和内容挖掘的web推荐服务 被引量:14 2005年 随着Internet的基础结构不断扩大和其所含信息的持续增长,Internet用户越来越感觉容易在WWW服务中“资源迷向”。提高用户访问效率的方法有页面预取技术,站点动态重构技术和web个性化推荐技术等。现有的大多数web个性化推荐技术主要是基于用户使用记录的数据挖掘方法,没有或很少考虑结合页面内容—这才是用户真正感兴趣的。该文提出一种结合用户使用挖掘和内容挖掘的web推荐服务,该推荐服务根据频繁最大前向访问路径,提出含有导航页和内容页的频繁访问路径图概念,根据滑动窗口内的最近用户访问页面内容和候选推荐集中页面内容相关性,来向用户提供个性化推荐服务。经推荐质量分析,这种方法具有较好的推荐优化能力。 戴东波 印鉴关键词:WEB使用挖掘 WEB内容挖掘 应用等距变换处理聚类分析中的隐私保护 被引量:5 2006年 针对聚类分析时如何保护隐私的问题,提出了一种称为IBT(基于等距变换的数据转换)的算法。IBT先随机选择属性向量对,然后对属性向量对进行等距变换。变换过程中,根据所要求的相对隐私保护度来确定变换角度θ的选择范围,最终在符合要求的范围中随机选择变换的角度。实验结果表明,IBT能保持两点间距离不变,很好地扭曲了数据,保护隐私信息,且对聚类的结果没有影响。 张国荣 印鉴关键词:数据挖掘 隐私保护 聚类分析 等距变换 基于Web挖掘的自适应站点优化设计 被引量:5 2006年 现有的静态 Web 站点结构不能满足人们准确地找到所需信息和享用个性化服务的要求。本文不但通过Web 日志文件的挖掘,找出用户的频繁访问路径来改进 Web 站点结构,而且分析当前访问页面与后续候选推荐页面的内容相关性,形成经过内容裁剪的个性化页面来压缩 Web 页面内容。这样,用户可快速定位到频繁访问的后续页面位置,且页面内容大多是用户感兴趣的主题信息。在此基础上,提出了一个自适应站点模型 AdaptiveSite,经过推荐质量分析,该模型具有较好的优化性能。 戴东波 印鉴关键词:WEB挖掘 自适应站点 个性化服务 基于Honeynet的网络入侵模式挖掘 被引量:9 2004年 随着互联网的扩张和基于互联网应用的发展,网络安全越来越受到人们的关注。网络入侵的检测和防范也越来越受到人们的重视。构建一个安全的网络,就要对攻击者的行为模式和攻击手段进行分析。该文提出了一个基于Hon-eynet的网络安全系统,通过Honeynet中的机器收集攻击者的有效信息,然后使用数据挖掘算法从这些数据中找出入侵者的攻击模式,从而提高入侵检测系统和防火墙的检测和防范能力。 印鉴 张钢 陈忆群关键词:网络安全 入侵检测 HONEYNET 数据挖掘 基于演化Agent的图象特征提取方法 2003年 图象的特征 ,如直线、曲线、边界等 ,可以看作是一系列特征像素的集合 ,提取所需的图象特征也就是要找出符合条件的特征像素 .本文介绍了一种基于Agent的图象特征提取新方法 .在该方法中 ,Agent在目标图象中自动搜索特征像素 ,从而进行图象的特征提取 .该方法的最大特点是分布式的、自底向上的 ,而且易于用硬件或软件来实现 .该方法在实验图象中取得了满意的效果 . 印鉴关键词:图像处理 特征提取 繁殖 像素 影响集问题及其多维向量动态索引结构的研究 k-最近邻居及其检索算法是计算机科学的主要核心问题之一,尤其在多维数据库系统的检索和查询方面起着相当重要的作用.近年来,k-最近邻居的逆问题逐渐得到人们广泛的关注.所谓逆k-最近邻居,就是在给定的数据集S中将查询点q视为... 陈健 印鉴 陈玲文献传递 搜索引擎技术研究与发展 被引量:100 2005年 介绍搜索引擎技术。首先以工作方式作分类介绍,接着介绍各部分工作原理和技术研究,包括如搜索器策略、检索策略、搜索结果处理、信息检索Agent、多媒体搜索引擎等关键技术。最后展望搜索引擎发展重要方向。 印鉴 陈忆群 张钢关键词:搜索引擎 多媒体搜索引擎 信息检索 一种有效的双时态索引技术 被引量:9 2005年 时态数据库中时间特征主要由有效时间和事务时间描述,论文扩充了4R索引的双时态数据,使其能处理有效时间初始值大于事务时间初始值的所有双时态数据,同时扩充了4R的查询功能使其不仅可以查询当前和历史数据,还可以查询将来的情况,并改进了相应的索引方法。 周风华 汤庸 康向锋关键词:时态数据库 数据变换 不完整数据库中的数据挖掘 被引量:6 2006年 数据挖掘是从数据中提取有用知识的过程。在现实生活中,数据丢失的情况是很常见的,尤其是在商业数据库中,由于文件错误、纪录缺失、存储策略的改变等都会引起数据丢失而造成数据库的不完整。这种不完整性会影响关联规则的挖掘过程,因为在有数据缺失时对规则的支持度以及可信度的计算都得不到确定值。把Apriori算法应用于不完整数据库,基于期望支持度和期望可信度,给出了一个挖掘不完整事务数据库中关联规则的算法。 印鉴 周祥福 杨敏关键词:数据挖掘 关联规则 极小子集问题的逻辑代数解法 2006年 在粗集论中,决策表简化问题可转化为极小子集问题。本文给出极小子集问题的逻辑代数解法,即通过求逻辑函数的极小析取范式或极小合取范式来获得极小子集。 李小霞