国家自然科学基金(61070061)
- 作品数:35 被引量:330H指数:10
- 相关作者:蒋盛益王连喜庞观松李霞吴美玲更多>>
- 相关机构:广东外语外贸大学衡阳师范学院淘宝(中国)软件有限公司更多>>
- 发文基金:国家自然科学基金教育部人文社会科学研究基金广东省自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学经济管理社会学更多>>
- 不平衡数据的无监督特征选择方法被引量:8
- 2013年
- 传统特征选择方法大部分是以分布均衡的数据为研究对象,以优化总体分类精度为基本目标,所以很少有方法在不平衡数据集上得到理想的学习效果.依据数据的分布特点,提出一种新的面向不平衡数据集的特征选择方法.该方法在无监督环境下,依据聚类簇大小的变化以通过在不同簇的相同特征上对其特征重要性度量函数分配不同的权重来调整数据分布的不均衡性.在多个UCI不平衡数据集上的实验结果表明,相比于其它几种经典的特征选择方法,所提出的方法在不降低总体分类精度的情况下,不仅可以有效选择更少的特征数目,而且还可以提高少数类在不同分类器上的分类精度、召回率及F-Measure值.
- 蒋盛益王连喜
- 关键词:不平衡数据集聚类
- 适用于大规模文本处理的动态密度聚类算法被引量:10
- 2013年
- 针对传统的基于密度的聚类算法对海量数据处理时,存在参数输入复杂及时间复杂度高的问题,给出新的密度定义方法,并在此基础上提出一种只需一个简单输入参数就能动态识别密度不均匀聚类簇的聚类算法,同时将其扩充为可以处理海量数据的两阶段动态密度聚类算法。在人造数据集、大规模数据集以及中英文文本语料数据集上的实验表明,所提出的算法具有输入参数简单和聚类效率高的特点,可以应用于海量文本数据的聚类处理。
- 李霞蒋盛益张倩生朱靖
- 关键词:文本挖掘聚类海量数据
- 基于代价敏感的朴素贝叶斯不平衡数据分类研究
- 传统数据挖掘分类算法在不平衡数据集上分类效果不佳,可以将代价敏感思想与传统分类算法相结合解决不平衡数据分类问题.但在代价敏感学习中,代价的确定需要足够的先验知识,难以把握.针对上述不足,构造针对不平衡数据分布的自适应代价...
- 蒋盛益谢照青余雯
- 关键词:朴素贝叶斯不平衡数据分类
- 文献传递
- 中文音乐情感词典构建及情感分类方法研究被引量:12
- 2014年
- 作为仅次于及时通信和搜索引擎的中国互联网网民第三大应用,网络音乐及其应用技术受到业界学者的青睐。音乐作为人类最重要的交流媒介,携带着丰富的情感信息,计算机音乐情感分析更是得到人机情感交互技术领域的高度重视。在基于歌词文本的音乐情感分析过程中,一部合理的音乐领域情感词典,将提供更加细致、更加准确的分析结果。以改进后的Hevner情感环模型为基础,借助How Net所提供的语义资源和从网络爬取的歌词文本语料库,构建了一部树形层次结构的音乐领域中文情感词典,并利用LRC歌词携带的时间标签获取歌曲的语速信息,实现了基于情感向量空间模型和情感词典的歌词情感分类。实验表明与人工构建的情感词典相比,所构建的情感词典更适用于音乐领域。
- 蒋盛益阳垚廖静欣
- 关键词:知网
- 基于协同过滤的网络论坛个性化推荐算法被引量:6
- 2012年
- 提出一种基于协同过滤的网络论坛个性化推荐算法,根据用户的发帖、回帖、阅读等记录,采用加权方法计算用户帖子的评分矩阵,获取邻近用户集合,通过邻居用户的帖子评分,计算目标用户的帖子预测评分,推荐预测评分最高的帖子。实验结果表明,该算法的推荐质量较高。
- 张新猛蒋盛益
- 关键词:网络论坛个性化推荐协同过滤相似度用户兴趣
- 改进的共享最近邻聚类算法被引量:3
- 2011年
- 聚类是一种无监督的机器学习方法,其任务是发现数据中的自然簇。共享最近邻聚类算法(SNN)在处理大小不同、形状不同以及密度不同的数据集上具有很好的聚类效果,但该算法还存在以下不足:(1)时间复杂度为O(n2),不适合处理大规模数据集;(2)没有明确给出参数阈值的简单指导性操作方法;(3)只能处理数值型属性数据集。对共享最近邻算法进行改进,使其能够处理混合属性数据集,并给出参数阈值的简单选择方法,改进后算法运行时间与数据集大小成近似线性关系,适用于大规模高维数据集。在真实数据集和人造数据集上的实验结果表明,提出的改进算法是有效可行的。
- 李霞蒋盛益
- 关键词:大规模数据集
- 跨语言智能学术搜索系统设计与实现被引量:5
- 2011年
- 学术搜索是一种行业化的搜索引擎,因其缺乏个性化、智能化的服务,使得用户的学术文献检索效率低下,海量的数字学术资源得不到充分利用。本研究跨语言智能学术搜索系统的设计与实现,旨在让用户可以在尽可能短的时间内找到所需学术资源。系统的几个关键技术包括:研究混合语种文本的分词技术;研究基于机器翻译的跨语言信息检索;研究搜索结果聚类算法在不同语言文本上的性能差异问题;研究基于聚类的个性化信息检索方法以及交互式查询扩展技术。实验测试结果表明:系统具有较好的扩展性,能为用户提供良好的学术检索服务。
- 庞观松张黎莎蒋盛益
- 关键词:跨语言信息检索搜索结果聚类个性化信息检索查询扩展学术搜索
- 基于歌词的歌曲高潮片段自动提取
- 2014年
- 音乐高潮片段自动提取技术可以应用到音乐检索、音乐数据分析、音乐推荐、音乐试听等研究及实际应用当中,有助于协助用户快速选择合适的音乐.针对基于内容提取音乐高潮片段开销大和产生冗余碎片的问题,本文利用LRC歌词分析研究中文流行音乐的高潮片段的自动提取技术.展示了标准的LRC歌词文本样例,阐述了LRC歌词的语速、字数、转化的时间标签等特征的提取方法,以及歌词相似性矩阵的构建方法与高潮片段的选取方法.初步实验结果表明,对歌曲高潮片段提取的准确率达到91.2%.
- 蒋盛益王冬青廖静欣阳垚
- 教育生活化在计算机课程中的应用
- 2012年
- 在介绍教育生活化的理念及教育生活化的重要性基础上,针对计算机课程的特点,从教材编写、备课、课堂教学以及课外实践等各个环节讨论教育生活化的基本操作和实施办法。
- 张钰莎冯春苑
- 关键词:教育生活化计算机课程知识运用能力
- 基于DOM树及行文本统计去噪的网页文本抽取技术被引量:5
- 2012年
- 首先对网页源码文本统一编码转为UTF格式,然后把HTML网页文档转换为XML文档并解析为一棵DOM树。依据XML语言特点及噪声特征规则先对DOM树的噪声节点进行过滤删除,然后依据中文标点符号统计方法提取网页正文内容,并在此基础上利用行文本统计方法去除提取出的正文中存在的噪声信息,最后得到网页正文文本。对来自结构完全不同的主流与非主流的中英文新闻网站上的2 000篇网页进行实验,结果表明本文提出的方法具有较高的抽取准确率,并具有很好的通用性和实现简单的特点,适用于针对互联网中不同网站新闻文本信息的自动采集。
- 李霞蒋盛益
- 关键词:DOM树