徐军
- 作品数:4 被引量:159H指数:3
- 供职机构:哈尔滨工业大学深圳研究生院更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划深圳市基础研究计划项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于主题的自适应、在线网络热点发现方法及新闻推荐系统被引量:29
- 2010年
- 本文提出了一种基于改进HotRank算法的站点排序及种子URL选择方法,建立了在线主题发现系统信息采集自适应增量更新模型;结合LDA模型和仿射传播聚类算法(AP),提出了一种网络主题发现和热点新闻推荐方法,并在海天园知识服务平台热点新闻推荐系统中得到了应用.
- 吴永辉王晓龙丁宇新徐军郭鸿志
- 关键词:知识服务主题发现自适应LDA模型仿射传播聚类
- 一种基于情绪表达与情绪认知分离的新型情绪词典被引量:9
- 2013年
- 目前的情绪词典通常对情绪词语进行情绪类别和强度的标注,但缺乏对词语的情绪表达和情绪认知结果进行区分的能力。同时,直接在词语条目上进行标注经常由于词语的语义歧义导致情绪标注结果存在歧义。该文在对个体情绪产生和迁移机制进行分析的基础上,建立了基于"刺激认知—反射表达"的文本情绪计算框架。并在此框架下对情绪相关词语的功能和特性进行分析,探索了一种新型情绪词典建设方法。首先,引入HowNet提供的词语语义信息,将同一词语转变为不同语义的多个词条进行标注减少情绪标注歧义。其次,将词语的情绪表达方式和情绪认知结果加以区分,分别标注从不同角度观测到的词条情绪类别和强度,同时对词语的情绪表达和情绪认知类型进行了细化分类。最终初步构建出一个具有清晰框架、丰富情绪信息和较低歧义的新型情绪词典。
- 徐睿峰邹承天郑燕珍徐军桂林刘滨王晓龙
- 关键词:情绪认知情绪表达词语语义
- 使用机器学习方法进行新闻的情感自动分类被引量:121
- 2007年
- 本文主要研究机器学习方法在新闻文本的情感分类中的应用,判断其是正面还是负面。我们利用朴素贝叶斯和最大熵方法进行新闻及评论语料的情感分类研究。实验表明,机器学习方法在基于情感的文本分类中也能取得不错的分类性能,最高准确率能达到90%。同时我们也发现,对于基于情感的文本分类,选择具有语义倾向的词汇作为特征项、对否定词正确处理和采用二值作为特征项权重能提高分类的准确率。总之,基于情感的文本分类是一个更具挑战性的工作。
- 徐军丁宇新王晓龙
- 关键词:中文信息处理文本分类情感分析贝叶斯最大熵
- 网购客服对话标注与分析
- 2016年
- 在当前交互式问答的研究中,面向真实应用环境的交互式问答语料比较缺乏。首先收集大量网购客服对话日志作为交互式问答研究的语料数据,对网购对话日志进行统计分析,然后从对话日志中抽取174组会话,对会话中的非规范语言现象、问句相关现象、问句答案匹配现象等交互式语言现象进行了标注和统计。基于标注统计结果发现:高频语句在网购对话中占较大比例,15%的语句的使用量占客服应答语句总量的45%以上;非规范语言现象出现比例占到会话语句的50%;问句相关现象中指代相关、省略相关、公共词序列相关是最重要的3个相关特征;问句答案匹配现象中交叉匹配的情形占到会话的60%以上;匹配的问答对中问句与答案具有显性匹配特征的占50%以上。
- 侯永帅王晓龙陈俊杰周小强徐军陈清财
- 关键词:语料分析