您的位置: 专家智库 > >

国家自然科学基金(61202281)

作品数:11 被引量:52H指数:4
相关作者:王荣波黄孝喜谌志群吴铤方小飞更多>>
相关机构:杭州电子科技大学中国计量大学天格科技(杭州)有限公司更多>>
发文基金:国家自然科学基金教育部人文社会科学研究基金国家社会科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 11篇中文期刊文章

领域

  • 11篇自动化与计算...

主题

  • 3篇文本
  • 3篇聚类
  • 2篇隐喻
  • 2篇识别方法
  • 2篇协同过滤
  • 2篇协同过滤算法
  • 2篇聚类方法
  • 2篇类方
  • 2篇SLOPE
  • 1篇多层面
  • 1篇信息过载
  • 1篇依存
  • 1篇移动通信
  • 1篇用户
  • 1篇用户聚类
  • 1篇语言模型
  • 1篇上下文
  • 1篇上下文信息
  • 1篇神经网
  • 1篇神经网络

机构

  • 11篇杭州电子科技...
  • 1篇浙江大学
  • 1篇中国计量大学
  • 1篇天格科技(杭...

作者

  • 11篇王荣波
  • 9篇黄孝喜
  • 7篇谌志群
  • 2篇吴铤
  • 1篇陆蓓
  • 1篇冯凯
  • 1篇王小华
  • 1篇张华
  • 1篇方小飞
  • 1篇詹春霞
  • 1篇周建成

传媒

  • 3篇数据分析与知...
  • 2篇现代图书情报...
  • 2篇计算机技术与...
  • 1篇电子科技
  • 1篇计算机应用
  • 1篇计算机工程与...
  • 1篇大连理工大学...

年份

  • 1篇2020
  • 2篇2018
  • 4篇2017
  • 2篇2015
  • 1篇2014
  • 1篇2013
11 条 记 录,以下是 1-10
排序方式:
基于LDA模型的移动投诉文本热点话题识别被引量:9
2017年
【目的】运用中文信息处理和话题识别与追踪的方法,从大量移动投诉文本中找出有价值的信息。【方法】从分析投诉文本的特点入手,使用k-means先对文本聚类。利用LDA对每个类进行建模,提取话题,并从词频、词跨度和词长三方面计算每个话题中词的权值,把权重最大的词作为该话题的标签,并计算每个话题的文档分布概率均值。对具有相同标签的话题,先按照均值最大的原则去掉重复标签话题,再对所有话题计算文档支持率,并将文档支持率作为话题的热度,通过热度区分热点话题和一般话题。【结果】对投诉文本进行时间上的建模,通过对比一般话题和热点话题,得出热点话题的支持文档率至少是一般话题的3倍,支持文档率变化趋势也比一般话题高,说明本文算法是有效的。【局限】没有考虑到话题之间的语义关系。【结论】利用LDA模型对移动投诉话题检测初探的方法是比较合理和有效的,对今后此领域的研究具有一定的借鉴意义。
方小飞黄孝喜王荣波谌志群王小华
关键词:K-MEANSLDA模型
基于改进CFSFDP算法的电信投诉文本聚类方法被引量:3
2017年
为了提高电信服务质量,增强企业竞争力,对电信投诉文本进行聚类,方便电信运营商分析投诉原因,文中提出了基于改进CFSFDP算法对电信投诉文本进行聚类的方法。通过差分进化算法寻找CFSFDP算法中最优密度阈值和距离阈值,降低密度及距离阈值的随机性选取对聚类准确率造成的影响。该算法使用Gaussian Kernel计算数据点密度,降低参数对密度计算的影响。在电信投诉文本数据集上的实验结果显示,改进CFSFDP算法聚类结果达到了与KMeans算法、CFSFDP算法、Agglomerative Clustering算法更好或者相当的效果,证明了算法的有效性。
张天宇谌志群黄孝喜王荣波
关键词:文本聚类差分进化
基于最小方差的K-means用户聚类推荐算法被引量:10
2018年
协同过滤推荐算法是一种传统的推荐技术,具有简单高效的特点,在实际中有广泛的应用,获得了大量研究者的青睐。虽然传统的协同过滤推荐算法在一定程度上缓解了用户当前所面临的信息超载问题,但其在处理大数据时存在的数据稀疏性和扩展性等问题却日益突出。于是,提出了一种基于最小方差的K-means用户聚类推荐算法。在缓解数据稀疏性方面,利用Weighted Slope One算法对初始用户—项目评分矩阵进行有效填充,降低了数据稀疏性;在提高算法扩展性方面,采用基于最小方差的K-means算法对用户评分数据进行聚类,将相似的用户聚到一起,减小目标用户的最近邻搜索空间,提高了算法扩展性。通过在Movie Lens数据集上的对比实验,结果表明,相比于传统的协同过滤推荐算法,改进算法具有更高的推荐准确度。
杨大鑫王荣波黄孝喜谌志群
关键词:信息过载协同过滤算法WEIGHTEDSLOPE最小方差
基于Bi-LSTM的多层面隐喻识别方法被引量:5
2020年
以双向长短期记忆网络(Bi-LSTM)为核心,结合多层卷积神经网络以及单向长短期记忆网络构建了多层面隐喻识别模型.基于多特征协同作用的思想,利用依存关系特征、语义特征、词性特征等多特征融合输入方法,丰富了模型的学习信息.为降低信息干扰,利用基于统计学的规范化文本输入方法提升模型识别效果.在英文语料词层面和句层面实验中,各个特征均表现出明显的正向作用.裁剪和填充处理及多特征协调作用在英文语料词层面研究中使F1值分别提升2.5%和5.1%,在句层面研究中F1值分别提升3.1%和1.9%.在中文语料句层面实验中,最优效果的F1值可达88.8%.
朱嘉莹王荣波黄孝喜谌志群
关键词:自然语言理解CNN
基于改进CFSFDP算法的文本聚类方法及其应用被引量:2
2017年
【目的】针对CFSFDP(Clustering by Fast Search and Find of Density Peaks)算法利用局部密度和距离的乘积选择聚类中心而导致聚类结果不理想的问题进行改进。【方法】提出一种基于粒子群算法的CFSFDP算法,通过粒子群算法寻找CFSFDP算法中的最佳局部密度和距离阈值,得到相对较高的局部密度和距离的聚类中心,减少离散点对数据中心选取的影响,并在某高考咨询平台提供的考生问题库中随机选取数据集进行试验。【结果】实验结果表明,在不同的数据集中,本文算法相对于基本的CFSFDP算法在准确率、召回率、F值上均有明显提高。【局限】文本处理时没有考虑语义关系。【结论】本文方法有很好的聚类效果,应用在高考咨询库中能够有效地减轻被咨询方的工作量并且帮助快速回答考生的问题。
詹春霞王荣波黄孝喜谌志群
关键词:聚类中心
微博关注关系网络K-核结构实证分析被引量:13
2013年
为研究微博关注关系网络的特征,以新浪微博为例,引入复杂网络分析方法对微博关注关系网络进行实证分析。首先对微博关注关系网络进行K-核分解,获取微博核心用户关系网络。然后计算K-核网络基本参数、跟随比例和度相关性,发现其既具有在线社会网络的一般特征,也具有现实社会网络的一些特点。通过对K-核网络的社区检测及节点中心性、互惠性、中间人角色的分析,发现其网络结构具有明显的社区特性。该研究能够为相关应用提供实证基础。
白林根谌志群王荣波黄孝喜
关键词:复杂网络
基于多权值的SlopeOne协同过滤算法被引量:4
2017年
【目的】针对Slope One算法未考虑项目相似性、项目属性和对目标用户已有评分同等考虑进而导致推荐准确度降低的问题进行改进。【方法】提出一种基于改进的项目相似性度量、改进的项目属性相似性度量和用户评分概率函数的多权值的Slope One协同过滤算法,在项目相似性度量方面将共同评价的两个项目的用户数量和Pearson相关系数相融合,在项目属性相似性度量方面将修正的拉普拉斯平滑与Jaccard系数相结合,同时利用用户评分概率函数对用户已有评分进行有效区分。【结果】实验结果表明,本文方法相比于原Slope One算法,MAE值下降了5.4%,能够获得更好的推荐准确度。【局限】只关注推荐系统中用户对项目产生的评分,并没有关注用户对项目给出的评论,在一定程度上影响了推荐效果。【结论】本文方法更能适应评分数据稀疏性,有效提高了推荐系统的推荐质量。
覃幸新王荣波黄孝喜谌志群
关键词:协同过滤SLOPEONE
基于多算法融合的移动通信客户流失预测模型被引量:1
2018年
针对移动通信行业中客户不断流失的现状,提出了一种优于传统单一算法模型预测的组合模型。该组合模型的元模型分别为决策树模型、Logistic回归模型和BP神经网络模型,该模型综合了各个元模型的优势。通过构造拉格朗日函数的方式来确定每个元模型的最优权重,使组合后的预测模型达到最优的预测效果,并在某移动通信公司提供的数据仓库中随机选取足够数量的流失客户作为数据集进行实验。实验结果表明,该模型在预测的正确率上比每一个元模型均有明显的提高。该方法有很好的预测效果,能够帮助移动通信公司找出即将离网的客户,对其制定相应的业务来维护自身商业利益。该方法的局限在于仅考虑了各个元模型间线性组合的情况。
王荣波王亚杰黄孝喜谌志群
关键词:移动通信客户流失数据仓库
一种基于词语抽象度的汉语隐喻识别方法被引量:1
2015年
【目的】设计一种自动计算汉语词语抽象度的方法,并将其用在自然语言理解中的隐喻识别任务。【方法】以统计学习理论中逻辑回归为计算模型,把神经网络语言模型获取的词语词向量作为特征,通过构建抽象词库得到特征权重向量,计算汉语词语抽象度。提出一种基于词语抽象度的汉语隐喻识别算法,验证该方法的应用效果。【结果】通过与已有的方法进行实验对比,本文设计的汉语词语抽象度计算方法更接近于人的认知常识;并且在隐喻识别任务中,也体现出更好的准确率。【局限】词语词向量表示词语抽象程度有一些缺陷;抽象词语库的规模影响特征权重向量的学习。【结论】词语抽象度计算可以表现为人对概念的一种抽象分类能力,本文提出的汉语词语抽象度计算方法得到的结果能够较好地拟合人的认知,并且实验证明词语抽象度可有效提高隐喻识别的效果。
黄孝喜张华陆蓓王荣波吴铤
基于LIBSVM的“就是”句句间关系判别方法
2015年
针对使用规则和机器学习方法判别句间关系时出现因机器学习多次迭代而导致规则权值削弱现象,进而导致判别正确率偏低的问题,提出了在规则和机器学习相结合过程中对导入的明显规则特征进行加强处理的方法。首先,抽取依存词汇、语义、句子结构等具有明显规则的特有特征;然后,基于一些句间关系指示词提取普适的特征;其次,将特征写入待输入的数据向量,并且增加一维向量用来存储出现的明显规则特征;最后,运用LIBSVM模型结合规则和机器学习进行实验。实验结果表明,加强后的实验正确率较之加强前平均提高了两个百分点,各句间关系准确率、召回率、F1值整体上都取得了较好的结果,平均值达到了82.02%、88.95%、84.76%。实验思路和方法对研究句子间联系紧密度具有重要价值。
周建成吴铤王荣波常若愚
关键词:LIBSVMKAPPA值
共2页<12>
聚类工具0