周星
- 作品数:3 被引量:16H指数:2
- 供职机构:解放军理工大学更多>>
- 发文基金:中国博士后科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 结合局部敏感哈希的k近邻数据填补算法被引量:4
- 2016年
- k近邻(kNN)算法是缺失数据填补的常用算法,但由于需要逐个计算所有记录对之间的相似度,因此其填补耗时较高。为提高算法效率,提出结合局部敏感哈希(LSH)的k NN数据填补算法LSH-k NN。首先,对不存在缺失的完整记录进行局部敏感哈希,为之后查找近似最近邻提供索引;其次,针对枚举型、数值型以及混合型缺失数据分别提出对应的局部敏感哈希方法,对每一条待填补的不完整记录进行局部敏感哈希,按得到的哈希值找到与其疑似相似的候选记录;最后在候选记录中通过逐个计算相似度来找到其中相似程度最高的k条记录,并按照k NN算法对不完整记录进行填补。通过在4个真实数据集上的实验表明,结合局部敏感哈希的k NN填补算法LSH-k NN相对经典的k NN算法能够显著提高填补效率,并且保持准确性基本不变。
- 郑奇斌刁兴春曹建军周星许永平
- 关键词:数据质量数据完整性K近邻算法
- 一种引入冗余控制的特征排序模型
- 2016年
- 针对特征排序方法较少考虑特征之间的相关关系,导致选择的特征子集存在冗余的问题,提出一种引入冗余控制的特征排序模型。将特征子集判别能力最大且冗余程度最小作为模型的目标函数,以降低特征之间的冗余;使用贪心方法和非线性规划方法对模型进行求解。在9个开源数据上的实验及与特征排序方法比较表明,本模型在大部分数据上,所选择的特征子集能够获得更好的分类准确性且个数更少;使用非线性规划方法求解时,能够直接得到特征子集,有利于确定特征个数。本模型可用于特征之间存在冗余时的特征选择。
- 周星刁兴春曹建军
- 关键词:非线性规划
- 基于改进层次分析的数据质量综合评估被引量:12
- 2014年
- 针对数据质量综合评估,采用二次变权的思想对传统层次分析(AHP)法进行改造,通过使用局部状态指数变权算法对影响因子的实测值进行激励或者惩罚,再将影响因子常权向量与激励或者惩罚过的影响因子实测值变权向量进行合成并二次变权,从而得到局部变权向量,并将该局部变权向量作为影响因子的最终权重向量。通过二次变权,既反映了专家对影响因子相互间重要程度的经验值,又体现了最终决策者对影响因子实测值不同状态所想体现的激励或惩罚的调节措施,使得评估的结果更加贴近实际,可信度更高。
- 严浩裘杭萍刁兴春周星
- 关键词:数据质量综合评估变权