周清清
- 作品数:12 被引量:120H指数:6
- 供职机构:南京理工大学经济管理学院信息管理系更多>>
- 发文基金:国家社会科学基金更多>>
- 相关领域:文化科学自动化与计算机技术轻工技术与工程经济管理更多>>
- 在线用户评论细粒度属性抽取被引量:27
- 2017年
- 随着在线评论信息数量的快速增长与应用的不断扩展,评论挖掘研究得到学术界的持续关注。当前的评论挖掘任务对属性的全面性、细粒度等要求越来越高,而多数现有研究方法主要关注评价对象主要属性的抽取。尽可能地发现评价对象的全部用户关注属性、并以细粒度方式表述属性,是一项有意义的工作。本文提出一种细粒度属性抽取方法,旨在全面、快速地抽取产品属性。本文首先利用高频名词构建候选属性词;然后通过深度学习构建候选属性词向量,在此基础上完成候选属性的聚类,得到聚类后的候选属性词集;最后对候选属性词集进行噪音过滤,得到细粒度产品属性集。在饮食、手机、图书等三个领域评论语料上的实验结果表明,相对于基于种子词的方法、基于结合人工的LDA方法及基于情感词的方法,本文方法能够更加全面地发现评价对象属性,并且能够给出细粒度的属性。
- 周清清章成志
- 关键词:属性抽取属性聚类近邻传播聚类
- 基于自动问卷生成及答案抽取的在线旅游用户满意度调研方法研究
- 随着旅游业与Web2.0的发展,涌现出越来越多旅游网站以及网站用户.网站想要了解用户的满意程度,同时用户也想选择他们更加满意的旅游路线.针对这一目标,当前很多研究借助于问卷调查的方式,得出用户满意度结果.此类方法操作简单...
- 周清清章成志
- 关键词:旅游网站用户满意度情感分析
- 基于电商产品评论的产品概念层次体系自动构建研究被引量:3
- 2016年
- 丰富的电商领域的产品概念层次体系,有助于全面了解产品属性,进行产品信息的深度挖掘,从而进一步用于挖掘消费者需求,辅助商业决策等。传统的手工构建方法效率低、成本高。现今,海量的电商评论信息包含了大量的产品属性信息,能够用于构建产品概念层次体系。因此,文章以电商评论为数据来源,利用条件随机场抽取产品候选术语;然后结合深度学习与聚类方法生成产品的概念层次体系。该方法效率高,动态更新难度低,而且通用性比较强。实验结果表明:产品术语抽取的准确率、召回率以及F1值分别为:90.17%、70.87%、79.47%,生成的两层概念层次体系共包含87个概念。与已有概念层次体系相比,该概念体系层次清晰,易于理解,同时直接利用产品评论数据,获得的术语关注度高,更贴近产品评论挖掘的实际应用需要。
- 张晓勇章成志周清清
- 关键词:电子商务术语抽取
- 面向在线社交网络用户生成内容的饮食话题发现研究被引量:4
- 2016年
- 【目的】通过大规模文本聚类技术进行话题检测,并自动拣选优质话题。【方法】以新浪微博上与饮食相关的微博内容为数据源,结合文本聚类与深度学习知识进行话题检测。通过匹配微博发布的月份,将微博划分为四季微博;使用向量空间模型和文本聚类方法,对不同季节的微博进行话题检测,获得候选话题;结合深度学习知识,提出主题覆盖率概念,用以自动评价话题质量,去除低质量话题。【结果】基于主题覆盖率的话题筛选结果符合人工拣选预期,抽取获得主题覆盖率高于0.5的优质话题。【局限】话题检测质量的评价主要以定性评价为主。【结论】通过计算主题覆盖率来自动选择优质话题,该方法效率高,通用性强,获得的话题便于理解,较好地揭示了四季中饮食微博的话题分布。
- 张晓勇周清清章成志
- 关键词:用户生成内容
- 基于UGC的中国各地区用户饮食偏好挖掘研究被引量:3
- 2017年
- 【目的】挖掘不同地区的用户饮食偏好,从而揭示不同群体的饮食文化差异,并为餐饮业提供建议。【应用背景】传统饮食偏好研究具有数据收集时间长、样本量少、成本高等不足,而社交媒体的迅猛发展,为获取大规模的用户饮食信息、挖掘用户饮食偏好提供了可能。【方法】以"大众点评网"的用户生成内容作为实验数据,挖掘不同地区的用户饮食偏好,揭示不同地区的饮食文化差异。【结果】来自经济相对发达地区的用户饮食偏好较为丰富,同时,地理距离与用户饮食偏好相似性之间存在显著负相关关系。此外,味道、服务、环境受到各地区用户较高的关注。【结论】基于用户生成内容的饮食偏好挖掘能在一定程度上反映用户的饮食偏好,揭示不同地区的饮食文化差异,为相关研究提供参考。
- 岳子静章成志周清清
- 关键词:社会计算用户生成内容
- 考虑图书推荐列表相似性的图书推荐研究被引量:6
- 2018年
- 亚马逊网站为每本图书生成推荐列表,供用户选择其感兴趣的图书,但该推荐方法仅考虑图书之间的相似性。文章在此基础上引入图书推荐列表的相似性,计算不同图书推荐列表的相似度,通过相似度排序为每本图书生成推荐列表,然后将其与亚马逊提供的推荐列表融合对用户进行个性化图书推荐。实验结果显示,相比于仅使用推荐列表的方法,文章所提出的方法所生成的推荐结果在平均准确率、平均召回率、Macro_F1和Micro_F1上都有一定的提升。由此可见,推荐列表的相似性对于图书推荐效果可以起到一定的优化作用。
- 张恒章成志周清清
- 基于多层次细粒度评论挖掘的图书影响力评价研究被引量:2
- 2020年
- 海量的在线评论表达了用户对于图书整体及其内容、印刷等属性的观点与态度,能够反映图书的影响力。文章对图书在线评论进行多层次细粒度挖掘从而评价图书影响力。首先获取图书的在线评论数据,然后细粒度挖掘图书评论以获取评价指标,并且通过比较多个文本表示方法及构建领域情感词典提高指标挖掘的性能,最后整合评价指标获取图书影响力结果。实验结果表明,虽然存在学科差异,但是图书的在线评论可以作为图书影响力评价的有效资源。此外,在研究语料中,基于One-hot文本表示方法的评论情感判断性能优于基于主题模型与基于深度学习的方法,同时,考虑模糊情感词的情感词典能够有效提升情感判断的性能。
- 周清清周清清
- 关键词:文本表示情感词典
- 基于迁移学习微博情绪分类研究——以H7N9微博为例被引量:18
- 2016年
- 社交媒体的发展吸引大量用户,继而产生海量的用户生成内容。对用户生成内容的挖掘分析能够及时掌握用户的情绪动态,继而帮助事件处理、政策施行等。已有研究利用监督机器学习方法进行文本情绪分类,但是这类方法依赖于语料的标注、耗时耗力,并且存在领域适应性问题。迁移学习方法能够避免大量的语料标注、并且一定程度解决领域适应性问题。但是,目前迁移学习鲜有用于情绪分类任务。此外,情绪分类主要是针对博文等长文本,缺少针对微博短文本的相关实证研究。本文在主客观分类基础上,利用迁移学习方法对H7N9微博主观语料文本进行情感分类,并对结果进行情绪分类。实验结果表明,首先,设置形容词个数阈值为2时主客观分类效果最优;其次,利用迁移学习算法进行微博情感分类效果优于非迁移学习方法;最后,利用词频-相关频率作为特征权重计算方法时可以得到较好的情绪分类性能。
- 周清清章成志
- 关键词:情感分类
- 基于引文内容的中文图书被引行为研究被引量:26
- 2019年
- 从引文内容角度对图书被引行为进行分析,可改善传统依靠被引频次、专家评论等数据进行图书评价的片面性,进一步提高图书评价结果的准确性和科学性。本研究从亚马逊中文网站上选取计算机、法律、医学、文学和体育五个学科领域的中文图书,通过人工采集方式获取图书在施引文献中的引文内容,由此构建包含2288条引文内容的数据集;然后从引用位置、引用强度、引用长度以及引用情感等方面,分析中文图书被引行为,并比较不同学科领域之间的差异。实验结果表明:不同学科领域对中文图书的引用位置具有不同的分布特征,表现出明显的学科差异;引用强度主要在1—3次,文学领域的平均引用强度最高;引用句长度一般在20—160字之间;施引作者对图书的引用情感中,超过80%表现为中性,而含有感情色彩的引用中,正面引用明显多于负面引用。
- 章成志李卓赵梦圆柳嘉昊周清清
- 关键词:学科差异图书评价
- 基于引文内容的图书被引动机研究被引量:12
- 2019年
- 文章针对目前图书影响力评价研究的不全面性,从引文内容的角度对图书在其施引文献中的被引用动机情况进行探究分析。首先,基于现有研究归纳出三种图书被引动机分类标准——使用、比较和背景引用;其次,以五个学科领域中文图书为例,获取其在施引文献中的引文内容信息,并标注引文的动机标签;最后,探究图书的被引动机分布及其与引用位置、引用长度的关系。实证分析结果显示,图书被引动机中"使用"占比较大。同时,引用动机与引用位置存在显著相关性,而与引用长度无明显相关性。此外,不同学科领域图书在施引文献中的引用动机存在差异。
- 李卓赵梦圆柳嘉昊周清清章成志
- 关键词:学科差异