您的位置: 专家智库
>
资助详情>
深圳市科技计划项目(JC201005280463A)
深圳市科技计划项目(JC201005280463A)
- 作品数:4 被引量:29H指数:3
- 相关作者:傅向华刘国陈冬剑王志强郭岩岩更多>>
- 相关机构:深圳大学更多>>
- 发文基金:国家自然科学基金深圳市科技计划项目广东省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于Nystrm低阶近似的半监督流形排序图像检索被引量:1
- 2011年
- 实际图像检索过程中,用户提供的相关反馈有限,但存在大量未标记图像数据.本文在前期半监督流形图像检索工作的基础上,提出一种基于Nystr¨om低阶近似的半监督流形排序图像检索方法.通过采用半监督的流形正则化框架,将图像数据嵌入到低维流形结构中进行分类排序,以充分利用大量未标记数据,并兼顾分类误差、数据分布的几何结构以及分类函数的复杂性.针对半监督学习速度缓慢的问题,基于Nystrm低阶近似对学习过程进行加速.在较大规模的Corel图像数据集上进行了检索实验,实验结果表明该方法能获得较好的效果.
- 傅向华李坚强王志强杜文峰
- 关键词:图像检索流形学习半监督学习
- 基于倒排索引位运算的深度优先频繁项集挖掘被引量:7
- 2012年
- 频繁项集挖掘是关联规则挖掘中的关键任务,非常耗费时间.为提高频繁项集的产生效率,提出一种基于倒排索引位运算的深度优先频繁项集挖掘算法(DF-FIMBII).该算法以二进制数组存储项目到事务的倒排索引,通过位运算计算两个项目的支持计数,并采用深度优先搜索策略递归地挖掘不同的k-频繁项集.在chess、mushroom、pumb_star、T40I10D100K等数据集上,对DF-FIMBII、Apriori、ECLAT、BitTableFI、Index-BitTableFI等算法进行了实验比较.实验结果表明,在数据规模不是非常巨大和支持度较小的情况下,无论数据集的稠密程度如何,DF-FIMBII均具有较好的时间优越性.
- 傅向华陈冬剑王志强
- 关键词:频繁项集倒排索引深度优先搜索
- 中文博客多方面话题情感分析研究被引量:18
- 2013年
- 博客是Web环境中个人表达观点和情感的一种重要载体,一般涉及较宽泛的话题,蕴含丰富的舆情信息。现有针对有关社会事件的用户产生内容进行情感分析的研究多数以篇章级为处理粒度,尚不能满足博客文本深度情感分析的需求。该文提出一种基于LDA话题模型与Hownet词典的中文博客多方面话题情感分析方法。该方法首先利用数据语料训练LDA话题模型,然后以滑动窗口为基本处理单位,利用训练好的LDA模型对博客文本进行话题识别与划分;在此基础上,基于Hownet词典对划分后的话题段落进行情感倾向计算。该方法有助于同时识别博客文本所涉及的多方面子话题及每个子话题上的情感倾向。实验结果表明,该方法不仅能获得较好的话题划分结果,也有助于改善情感分析的准确率。
- 傅向华刘国郭岩岩郭武彪
- 关键词:LDA模型
- 一种核心子集选择训练的大规模中文网页分类方法被引量:3
- 2011年
- 针对Web页面分类方法一般只能处理小规模数据的问题,提出一种核心子集选择训练的大规模中文网页分类方法.该方法通过将支持向量机的最优化求解问题转化为等价的近似最小闭包球求解问题,使得只需选择数据集的核心子集参与分类器训练;并且,在特征选择阶段采用改进的基于词性的互信息特征选择模型,有效提高Web页面分类的大规模数据处理能力.在搜狗实验室提供的大规模Web页面数据集上进行了实验,实验结果表明不仅准确率可达到支持向量机同等的效果,且训练时间大大减少;而对不均衡类别数据的测试结果表明,该方法在处理不均衡类别数的Web网页分类上也能获得很好的效果.
- 傅向华刘国陈冬剑
- 关键词:支持向量机