廖海波 作品数:8 被引量:32 H指数:4 供职机构: 江西师范大学科学技术学院 更多>> 发文基金: 江西省自然科学基金 国家自然科学基金 教育部科学技术研究重点项目 更多>> 相关领域: 自动化与计算机技术 文化科学 更多>>
基于投影寻踪的中文网页分类算法 被引量:15 2005年 随着Web信息迅猛发展,网络用户对网页自动分类器的需求日益增长。为了提高分类精度,本文提出了一种新的基于投影寻踪(ProjectionPursuit,简称PP)的中文网页分类算法。我们首先利用遗传算法找到一个最好的投影方向,然后将已被表示成为n维向量的网页投影到一维空间。最后采用KNN分类算法对其进行分类。此方法能解决“维数灾难”问题。实验结果表明,我们提出的算法是可行而且是有效的。 万中英 王明文 廖海波关键词:计算机应用 中文信息处理 投影寻踪 网页分类 KNN算法 基于投影寻踪回归文本自动分类的模型 文本被表示为向量空间模型后,是维数非常高的数据,对其进行维数约简是必要的.投影寻踪正是一种稳健的、非参数化的维数约简方法.提出了一种基于投影寻踪回归的文本自动分类模型.应用该模型,可以真实地描述高维数据的客观内在规律,从... 廖海波 万中英 王明文关键词:文本自动分类 维数约简 向量空间模型 文献传递 免疫进化的投影寻踪模型在文本分类中的应用 被引量:4 2011年 投影寻踪是通过寻找最能反映原高维数据的结构或特征的投影方向,把高维数据投影到低维子空间上,从而实现在低维空间上研究分析高维数据的目的。针对文本分类中维数灾难问题,采用投影寻踪模型,将高维的文本数据降到超低维。投影寻踪的关键是构造能够找到最佳投影方向的有效算法,本文根据免疫进化的思想提出了免疫进化的投影寻踪模型,该模型能有效地寻找最佳的投影方向。将该方法应用于Reuters-21578文档集和复旦文档集,实验结果表明此方法不仅能有效解决文本分类中难数灾难问题,而且得到了很好的分类性能。 廖海波 万中英 王明文关键词:免疫进化算法 投影寻踪 文本分类 遗传-粒子群的投影寻踪模型 被引量:11 2010年 以前的投影寻踪研究都是采用遗传算法来寻找最优的投影方向,但遗传算法对初始种群的选择有一定的依赖性,收敛速度较慢,而且得到的也未必是最优解。粒子群算法是一种模拟鸟群飞行觅食的行为,通过个体之间的协作来寻找最优解的进化计算技术。根据遗传算法和粒子群算法的优缺点,将两者有效地结合在一起,提出了遗传-粒子群的投影寻踪模型。该方法能有效地解决投影寻踪模型中投影方向的寻优问题,并将该方法应用于文本分类,在Reuters-21578文档集上分别采用KNN和朴素贝叶斯方法进行实验,结果表明此方法能有效提取投影方向,取得了满意的分类效果,也提高了算法收敛到最优解的能力。 万中英 廖海波 王明文关键词:遗传算法 粒子群算法 投影寻踪 文本分类 Web挖掘中若干理论与算法研究 王明文 罗远胜 左家莉 万中英 王晓庆 廖海波 吴福英 万剑怡 因特网正在把全球的信息资源连接起来,形成了人类有史以来所面对的最巨大的信息海洋。但这些信息在给人们带来丰富信息资源的同时,也使人们陷入了所谓的“信息灾难”。信息过载几乎成为人人需要面对的问题。Web挖掘是从因特网中获取感...关键词:关键词:因特网 模拟退火的投影寻踪模型在文本分类中的应用 在文本分类中,特征维数高是必须处理的问题,有效的维数约简技术可以提高分类器学习任务的效率和分类性能,已有研究表明投影寻踪是一种有效的降维方法。投影寻踪是通过寻找最能反映原高维数据的结构或特征的投影方向,把高维数据投影到低... 廖海波 万中英 王明文关键词:模拟退火 投影寻踪 文本分类 文献传递 基于投影寻踪回归文本自动分类的模型 被引量:6 2005年 文本被表示为向量空间模型后,是维数非常高的数据,对其进行维数约简是必要的。投影寻踪正是一种稳健的、非参数化的维数约简方法。提出了一种基于投影寻踪回归的文本自动分类模型。应用该模型,可以真实地描述高维数据的客观内在规律,从而达到提高文本分类精度的目的,岭函数拟合函数的合理选择是提高分类精度的关键,故对拟合函数的选取做了初步的研究。采用标准文档集R eu ters-21578进行了分类实验,同时在相同的预处理条件下,与目前常用的方法进行了对比实验。实验结果表明,该模型对文本自动分类具有较高的召回率和准确率。 廖海波 万中英 王明文关键词:文本分类 维数约简 基于投影寻踪回归的文本分类研究 本文提出了基于投影寻踪回归的文本自动分类算法,通过投影寻踪回归算法,可以真实地描述高维数据的客观内在规律,从而达到降低特征维数,提高文本分类的精度的目的.基于投影寻踪回归的文本分类方法的思想是:将文本表示为向量形式,然后... 廖海波关键词:文本分类 维数约简 遗传算法 文献传递