国家教育部博士点基金(20070217043) 作品数:13 被引量:79 H指数:6 相关作者: 顾国昌 徐森 范冬梅 潘树燊 刘柏森 更多>> 相关机构: 哈尔滨工程大学 盐城工学院 哈尔滨工业大学 更多>> 发文基金: 国家教育部博士点基金 国家自然科学基金 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 电子电信 轻工技术与工程 更多>>
Clustering method based on data division and partition 被引量:1 2014年 Many classical clustering algorithms do good jobs on their prerequisite but do not scale well when being applied to deal with very large data sets(VLDS).In this work,a novel division and partition clustering method(DP) was proposed to solve the problem.DP cut the source data set into data blocks,and extracted the eigenvector for each data block to form the local feature set.The local feature set was used in the second round of the characteristics polymerization process for the source data to find the global eigenvector.Ultimately according to the global eigenvector,the data set was assigned by criterion of minimum distance.The experimental results show that it is more robust than the conventional clusterings.Characteristics of not sensitive to data dimensions,distribution and number of nature clustering make it have a wide range of applications in clustering VLDS. 卢志茂 刘晨 S.Massinanke 张春祥 王蕾关键词:CLUSTERING DIVISION PARTITION 基于矩阵谱分析的文本聚类集成算法 被引量:7 2009年 聚类集成技术可有效提高单聚类算法的精度和稳定性,其中的关键问题是如何根据不同的聚类成员组合为更好的聚类结果.文中引入谱聚类算法解决文本聚类集成问题,设计基于正则化拉普拉斯矩阵的谱算法(NLM-SA).该算法基于代数变换,通过求解小规模矩阵的特征值和特征向量间接获得正则化拉普拉斯矩阵的特征向量,并用于后续聚类.进一步研究谱聚类算法的关键思想,设计基于超边转移概率矩阵的谱算法(HTMSA).该算法通过求解超边的低维嵌入间接获得文本的低维嵌入,并用于后续K均值算法.在TREC和Reuters文本集上的实验结果验证NLMSA和HTMSA的有效性,它们都获得比其它基于图划分的集成算法更为优越的结果.HTMSA获得的结果比NLMSA略差,而时间和空间需求则比NLMSA低得多. 徐森 卢志茂 顾国昌关键词:聚类分析 聚类集成 谱聚类 文本聚类 使用“分裂-合并'策略改进文本聚类集成算法的研究 被引量:2 2010年 探讨了'分裂-合并'(DM)策略对文本聚类集成算法改进的效果。首先在聚类成员生成阶段运行使用DM策略的超球K均值(SKM)算法r次,每次生成较多的文本子簇,并根据子簇的相似性使用凝聚层次聚类方法合并这些子簇,得到r个聚类成员,随后在聚类集成阶段采用两个快速的谱聚类算法进行集成。在6组真实文本集上进行了实验,使用DM策略的两个聚类集成算法获得的平均标准化互信息(NMI)分别比改进前的算法提高了4.6和7.9个百分点,证明了DM策略可以有效提高文本聚类集成算法的聚类质量。 卢志茂 徐森 刘远超 顾国昌关键词:聚类集成 谱聚类 文本聚类 结合K均值和非负矩阵分解集成文本聚类算法 被引量:12 2011年 将非负矩阵分解(NMF)引入到文本聚类集成问题中,为解决NMF随机初始化所引起的不稳定性问题,首先采用最小最大原则确定K均值算法的初始质心,并获得稳定的聚类结果;其次,将K均值算法的聚类结果作为NMF的初始因子矩阵,并对超图的邻接矩阵进行NMF,获得基矩阵和系数矩阵;最后根据系数矩阵获得最终的聚类结果,由此设计了NMFK算法。在多组真实文本集上进行了实验,结果表明:NMFK算法运行高效,并且获得了比其他常见的聚类集成算法更加优越的结果。 徐森 卢志茂 顾国昌关键词:计算机应用 聚类分析 非负矩阵分解 K均值 基于信息增益改进贝叶斯模型的汉语词义消歧 被引量:9 2008年 词义消歧一直是自然语言处理领域的关键问题和难点之一。通常把词义消歧作为模式分类问题进行研究,其中特征选择是一个重要的环节。该文根据贝叶斯假设提出基于信息增益的特征选择方法,并以此改进贝叶斯模型。通过信息增益计算,挖掘上下文中词语的位置信息,提高贝叶斯模型知识获取的效率,从而改善词义分类效果。该文在8个歧义词上进行了实验,结果发现改进后的贝叶斯模型在消歧正确率上比改进前平均提高了3.5个百分点,改进幅度较大,效果突出,证明了该方法的有效性。 范冬梅 卢志茂 张汝波 潘树燊关键词:词义消歧 自然语言处理 信息增益 贝叶斯模型 使用证据累积的文本聚类谱算法 2010年 针对谱聚类算法相似度函数设置困难问题,提出了一种使用证据累积的文本聚类谱算法.该算法使用超球K均值算法对文本集进行多次聚类,并将每次得到的划分结果作为判断2个文本是否应该放在一个簇中的证据,由此构建文本的相似度矩阵和正则化拉普拉斯矩阵.在TREC和Reuters文本集上进行了实验,验证了本文算法的有效性,它比层次聚类算法和CLUTO提供的K均值算法更加优越. 徐森 卢志茂 张春祥 顾国昌 张琦关键词:聚类分析 文本聚类 基于离群点识别的聚类结果属性特征簇发现 被引量:2 2009年 对聚类结果的理解有助于评价聚类效果,可以据此调整聚类过程,更高效地使用聚类结果.但是,聚类结果的理解仍然是一个尚未解决的问题.提出了基于离群点识别技术分析任意聚类算法的聚类结果,发现了聚类结果属性特征簇的方法;提出一种基于不相似性比值的离群点识别算法.通过对全部数据簇的属性描述进行离群点分析,发现各数据簇的特征属性,实现对聚类结果的理解.所提方法适用于任意聚类算法结果的分析.对UCI的iris、ZOO和Housing数据集的采用X-means、Frozen和DBScan算法的聚类结果进行聚类结果分析,实验表明所提方法较成功地发现了不同聚类算法的属性特征簇,有助于对聚类结果的深入理解. 陈英 顾国昌 吕天阳关键词:聚类 解决文本聚类集成问题的两个谱算法 被引量:21 2009年 聚类集成中的关键问题是如何根据不同的聚类器组合为最终的更好的聚类结果.本文引入谱聚类思想解决文本聚类集成问题,然而谱聚类算法需要计算大规模矩阵的特征值分解问题来获得文本的低维嵌入,并用于后续聚类.本文首先提出了一个集成算法,该算法使用代数变换将大规模矩阵的特征值分解问题转化为等价的奇异值分解问题,并继续转化为规模更小的特征值分解问题;然后进一步研究了谱聚类算法的特性,提出了另一个集成算法,该算法通过求解超边的低维嵌入,间接得到文本的低维嵌入.在TREC和Reuters文本数据集上的实验结果表明,本文提出的两个谱聚类算法比其他基于图划分的集成算法鲁棒,是解决文本聚类集成问题行之有效的方法. 徐森 卢志茂 顾国昌关键词:聚类分析 聚类集成 谱聚类 文本聚类 基于希尔伯特-黄变换的低信噪比语音端点检测 被引量:8 2011年 应用希尔伯特-黄变换完成了一种低信噪比条件下的语言信号端点检测。该方法通过分析纯净语音信号与低信噪比下语音信号的固有模态函数及希尔伯特谱,找出固有模态函数中语音信号能量集中的分量,分析其希尔伯特谱,自适应地选取阈值进行语音段与非语音段的检测。通过对比实验表明了该方法在低信噪比下能有效地检测出语音信号。 刘柏森 卢志茂 申丽然 金辉关键词:信息处理技术 希尔伯特-黄变换 经验模态分解 语音检测 使用谱聚类算法解决文本聚类集成问题 被引量:15 2010年 采用2个不同的谱聚类算法解决文本聚类集成问题。为使算法可扩展到大规模应用,基于代数变换,通过求解小规模矩阵的特征值分解问题避免了大规模矩阵的特征值分解问题,有效降低了2个谱聚类算法的计算复杂度。分别从矩阵扰动理论和图上的随机游走的角度解释了2个算法的有效性。在真实文本集上的实验结果表明:提出的代数变换方法是有效的,该方法可以有效提高谱聚类算法的运行效率;该聚类集成谱算法比其他常见的聚类集成算法更优越、更高效,可以有效解决文本聚类集成问题。 徐森 卢志茂 顾国昌关键词:聚类集成 文本聚类 谱聚类