刘丽娟
- 作品数:3 被引量:8H指数:2
- 供职机构:吉林大学计算机科学与技术学院符号计算与知识工程教育部重点实验室更多>>
- 发文基金:吉林省科技发展计划基金国家科技支撑计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 数据分布不敏感的决策树算法被引量:1
- 2009年
- 传统的决策树算法是数据分布敏感的,面对数据分布偏斜的样本集时,常导致少数类别样本的分类精度很低。已有的可以处理偏斜样本集的决策树算法只针对两种类别样本的集合。由此提出了一种新的数据分布不敏感的决策树算法——DTID。该算法通过构造各种新的少数类别样本,调整样本集合的数据分布,提高少数类别样本的分类精度。DTID算法采用样本取模运算减少了算法的运行时间。实验结果表明,与C4.5等算法相比,DTID的分类精度明显提高,即使样本集中包含多种少数类别样本也能获得较好的分类效果。
- 孙涛李雄飞刘丽娟
- 关键词:人工智能决策树算法
- 数据挖掘中平衡偏斜训练集的方法研究被引量:3
- 2012年
- 分类是数据挖掘的重要任务之一.训练分类器的训练集可能是偏斜数据.传统分类算法处理偏斜训练集,通常会使少数类别样例的分类精度很低.已有的偏斜训练集平衡算法都是针对只有两种目标类的情况.为平衡拥有多种目标类的偏斜训练集,基于同类样例差异较小的思想给出SSGP算法,在同类样例附近增加少数类别样例,且使多种少数类别样例同速增加.并证明SSGP算法不会向数据集中添加噪声样例.为提高效率,用样例取模取代大量相异度计算.实验表明,只需执行一遍SSGP算法就能同时提高多种少数类别样例的分类精度.
- 李雄飞李军李军屈成伟刘丽娟
- 一种有效识别MIDI文件中主旋律音轨的方法被引量:4
- 2010年
- 互联网上存在着大量的MIDI文件,这使得构建以乐谱信息为存储对象的音乐数据库成为可能。MIDI文件通常由多轨组成,为实现旋律的检索、分析、比较等功能就需要从多轨中提取出主旋律。针对人声音乐,提出一种自动识别MIDI文件中主旋律音轨的方法,该方法先考察MIDI文件的各个音轨,如果该音轨具有旋律特征的片段总长度超过规定阈值,则将其加入到候选音轨集,再通过比较,从中择优选出主旋律音轨。通过测试各种音乐类型的MIDI文件证明了该方法的可行性。
- 叶霖李雄飞刘丽娟武佳薇
- 关键词:音乐数据库MIDI