国家自然科学基金(600773169) 作品数:4 被引量:27 H指数:3 相关作者: 唐常杰 李红军 郑皎凌 王悦 陈瑜 更多>> 相关机构: 四川大学 北京大学 中国科学技术大学 更多>> 发文基金: 国家自然科学基金 国家科技支撑计划 国家教育部博士点基金 更多>> 相关领域: 自动化与计算机技术 更多>>
基于流信息距离的多文本流热点挖掘 被引量:5 2011年 把文本流中的热点区分为局部热点和全局热点,分析了二者的相关性,并将Kolmogorov复杂度应用于多文本流中的热点挖掘.首先,定义了基于Kolmogorov复杂度的冗余信息的概念,并论证了文本流存在局部热点的必要条件是冗余信息超过某个阈值;其次,基于条件Kolmogorov复杂度提出了一个相似性度量指标——流信息距离(stream information distance,简称SID),以衡量不同文本流之间的相似度;并借鉴计算生物学领域中的种系发生树的思想,提出了一种基于层次聚类的多文本流全局热点挖掘启发式算法.在合成和真实数据集的实验,验证了算法的收敛性、有效性和规模可伸缩性. 杨宁 唐常杰 王悦 陈瑜 郑皎凌 李红军关键词:冗余信息 Graph OLAPing的建模、设计与实现 被引量:13 2011年 提出了一系列Graph的OLAP模型和算法,实现了以Graph数据为中心度量的OLAP操作.主要贡献包括:(1)提出了面向Graph的数据仓库概念模型——双星模型;(2)提出了Graph的数据立方概念和创建过程;(3)设计了信息维聚集算法I-OLAPing;(4)设计了拓扑维聚集算法T-OLAPing;(5)实现了Graph OLAP的原型系统Graph OLAPer1.0.实验结果表明,设计和实现的Graph OLAPing算法及原型系统Graph OLAPer1.0能够有效地进行科研合作网分析. 李川 赵磊 唐常杰 陈瑜 李靓 赵小明 刘小玲在不确定数据集上挖掘优化的概率干预策略 被引量:6 2011年 提出了不确定干预分析模型,主要工作包括:(1)建立了用于多维不确定数据分析的不确定监测点模型(uncertain surveillance);(2)建立了基于不确定监测点的不确定干预策略及挖掘评价算法;(3)在真实数据及仿真数据上对所提出的两种算法作了大量实验比较,验证了所提出的干预策略评价优化算法具有较高精度,效率比朴素方法高出3个数量级,适合在实际系统中处理海量干预评价. 王悦 唐常杰 杨宁 张悦 李红军 郑皎凌 朱军关键词:不确定数据 数据挖掘 海量数据分析 UTR^*-Tree:受限网络中移动对象不确定轨迹索引模型 被引量:3 2010年 受限网络中移动对象不确定轨迹的有效索引是移动对象数据库中的研究重点。针对现有方法的不足,提出了一种新的不确定轨迹索引结构UTR*-Tree。该索引结构采用静态和动态相结合存储管理移动对象,将变化极小的受限道路网络作为静态部分使用2维空间R*-Tree进行管理;将移动对象位置则作为动态信息采用R*-Tree和Hash数组协同管理。借助该结构,移动对象数据库不仅可以快速地处理对移动对象过去可能位置的查询,而且能够对其现在及将来的可能位置进行高效的查询处理。实验结果表明同目前有代表性的轨迹索引结构UTR-Tree相比,该索引结构在维护性能上提高了一个数量级,在查询性能上平均提高了约25%。 李红军 唐常杰 乔少杰 代术成 王悦 郑皎凌关键词:移动对象数据库 不确定性 索引