高松
- 作品数:6 被引量:57H指数:4
- 供职机构:同济大学经济与管理学院更多>>
- 发文基金:国家自然科学基金上海市哲学社会科学规划课题山东省统计科研重点课题更多>>
- 相关领域:自动化与计算机技术医药卫生文化科学经济管理更多>>
- 面向在线评论的比较观点挖掘研究综述被引量:3
- 2016年
- 【目的】对比较观点挖掘和相关研究的主流研究方法和步骤进行综述,为相关领域的未来研究提供指导。【文献范围】从Wo S,Google Scholar,CNKI中以"比较观点(Comparative Opinion)"、"比较句识别(Comparative Sentence)"、"比较关系(Comparative Relation)"等为检索词筛选获得55篇相关文献。【方法】基于文献调研,介绍比较范畴的划分、比较句识别、比较关系抽取和比较观点情感分析等研究进展。【结果】由于有限的序列规则,比较观点的识别难以进一步提高,对隐形比较观点的识别研究鲜有提及,并且现有的抽取技术难以很好地提取比较要素。此外,比较观点缺乏细粒度的情感分析。【局限】缺乏对现有比较观点识别方法的对比分析。【结论】本文提出的研究框架可以为未来进一步研究提供参考。此外,未来的工作重点应关注通过比较观点识别追踪潜在竞争对手,分析产品竞争力,以及提供不同商品的对比分析等。
- 高松王洪伟冯罡王伟
- 关键词:情感分析
- 基于LDA和SNA的在线新闻热点识别研究被引量:21
- 2016年
- 准确识别在线新闻的热点话题,有助于政府了解社会动向、企业洞察消费需求、学者追踪研究热点。为此,提出一种基于隐含狄利克雷分布和社会网络分析的在线新闻文本热点挖掘模型。首先,借助LDA主题模型对同一时期某一领域的新闻文本进行主题词提取,形成主题词共现结构网络。然后,采用社会网络分析方法对共现网络进行分析,构造主题词语的社会网络结构图谱,进行中心性分析、核心-边缘分析和凝聚子群分析,并以"可持续发展"领域为例,对该领域的热点进行识别。最后,分别与TD-IDF和LDA的主题抽取方法对比,并结合百度指数的验证,发现本文的方法能够有效地反映词语的重要程度和分布情况,具有较强的可移植性。
- 王洪伟高松陆頲
- 关键词:热点主题在线新闻社会网络分析
- 基于LDA模型的主题演化分析:以情报学文献为例被引量:25
- 2018年
- 为了掌握科研动态和追踪研究热点,需要挖掘文献中的主题及其变化规律,因此,提出了一种基于隐性狄利克雷分布(latent Dirichlet allocation,LDA)的主题演化分析模型.首先,在整个文本集合上使用LDA模型识别主题及其关键词,并计算每个时间窗口中文档-主题概率分布;然后,对各个时间窗口下的文本集合分别使用LDA模型计算出主题-词汇概率分布,并计算不同时间窗口下不同主题的相似度,从而得出主题强度的演化趋势;最后,通过相似主题下的词汇的概率分布得到主题内容的变化.可观察到中文情报学领域,"语义分析"等主题的关注度具有持续上升的趋势.
- 朱茂然王奕磊高松王洪伟张晓鹏
- 关键词:主题内容
- 感冒药材关联规则知识发现下的配伍规律与斗谱编排研究被引量:5
- 2013年
- 中药斗谱的编排是影响中药调剂效率的重要因素.现有斗谱大多根据行医经验编排,有待于优化.本文首先采用FP-Growth算法挖掘感冒药材间关联规则知识,进而根据得出的支持度、置信度分别研究了感冒药材间的配伍规律和新斗谱的编排设计,最后通过模拟仿真实验验证新斗谱的调剂效用.研究表明:感冒方剂中隐含丰富的关联规则知识,其包含了药材间的关联性、用药规律和配伍关系,可将这些隐含的关联规则知识应用于优化斗谱编排,提升调剂效率.
- 桑秀丽肖汉杰高松王华
- 关键词:关联规则FP-GROWTH配伍规律
- 元江-红河流域降雨与径流的时间序列相关性分析被引量:1
- 2016年
- 明确降雨与径流之间的关系对于水资源的保护、合理开发利用以及旱涝灾害的控制有着重要的意义。通过研究元江-红河流域降雨量与径流量的时间序列相关特征,用十年降雨量和径流量数据构建多个时间序列相关特征模型,并进行对比分析。结果表明:Pearson相关系数与一致性系数证实了变量间的线性变换关系;一个简单的线性变换给出了规范化降雨径流值,在此基础上,基于欧式距离、标准欧氏距离、马氏距离的三个模型都表现出良好的相关特征,其中,标准化欧式距离拟合度0.99,年误差率0.47%,明显优于其他两种距离方法;系数ss*是将相关系数与距离结合的方法,拟合度0.99,误差率仅为0.2%,效果较好。通过以上方法,降雨径流具有时间相关的良好特征,且模型解均呈现有趣和稳定的趋势。
- 高松王洪伟桑秀丽徐建新
- 关键词:降雨径流时间序列欧式距离相关系数
- 面向竞争力分析的中文在线评论的比较观点识别:以餐饮业为例被引量:4
- 2015年
- 比较是在线评论中较为常见的一种评价形式,从海量的在线评论中识别出包含比较关系的评论,并将这些比较关系可视化是文本挖掘的研究热点。本文提出一种根据比较句的次范畴判别语料类型的比较句识别方法,采用规则与统计相结合的方法,将人工模式库与CSR方法相结合,构造了比较句混合规则库,在此基础上进行比较实体名的二次识别,实现了比较句的准确识别和类型判别。以大众点评网的餐馆评论作为实验语料,结果表明,在保证召回率的同时,该方法能有效地提高比较句识别的准确率。在此基础上对产品特征以及比较观点进行了挖掘和情感计算,实现了可视化的餐馆竞争力分析。
- 王洪伟蒋文瑛高松华瑾
- 关键词:餐饮业