孙宏纲
- 作品数:5 被引量:21H指数:3
- 供职机构:解放军电子工程学院网络工程系更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 中文博客主题情感句自动抽取研究被引量:4
- 2008年
- 博客作为一种大众化的信息及文化载体被越来越多的人所接受,博客信息的情感分析也逐渐成为了信息挖掘领域的热点。目前,在研究情感分析时,多是通过计算词汇的倾向性来完成的。由于并不是所有的带有情感色彩的词汇都是主题相关的,因此,以词为粒度的情感分析存在一定的缺陷。为了解决这一问题,试图从句子层面进行分析,主要研究了与之相关的主题情感句的自动提取问题。为了有效地提取主题相关情感句,设计了一个新颖的基于二元切分的提取算法来获取主题词,然后利用TFIDF算法获取更多的次要主题词,并利用这些主题词重组了那些包含主题词的原始句。因此,如果主题情感句存在的话,那么它一定在这些重组的主题句集合中,只要对该重组句集合进行分析、提取,便能得到主题情感句。最后,利用CRFs将主题句提取问题有效转化为了中文chunking问题,并在抽取实验中取得了很好的结果。
- 孙宏纲陆余良
- 关键词:情感分析CRFS
- 基于二元切分的互联网新闻主题词自动提取研究
- 为了更准确的得到互联网新闻主题词,本文在研究中,借鉴了基于二元自动切分的索引机制。在新闻主题词提取时,选用二元切分,并充分利用新闻自身的文体特性,弱化了对字典的依赖,强化了对二元词的位置信息的处理。实验证明该方法是一种简...
- 孙宏纲陆余良
- 关键词:互联网新闻
- 文献传递
- 基于二元切分的互联网新闻主题词自动提取研究
- 为了更准确地得到互联网新闻主题词,本文在研究中,借鉴了基于二元自动切分的索引机制。在新闻主题词提取时,选用二元切分,并充分利用新闻自身的文体特性,弱化了对字典的依赖,强化了对二元词的位置信息的处理。实验证明该方法是一种简...
- 孙宏纲陆余良
- 关键词:互联网新闻索引机制未登录词
- 文献传递
- 基于表单爬虫的Web漏洞探测被引量:7
- 2008年
- 提出基于滑动窗口的自适应站点搜索策略和基于位置特征与复现频率的导航链接发现策略。在此基础上,采用基于导航链接的表单搜索策略,设计一种新颖的不同于普通爬虫和主题爬虫的表单爬虫。给出一个基于表单爬虫的Web漏洞探测方案。实验表明该方案搜索表单的收益率和覆盖率分别达到了24%和85%,对跨站攻击漏洞的探测准确率达到96%。
- 赵亭陆余良刘金红孙宏纲施凡
- 关键词:收益率召回率
- 基于HowNet的VSM模型扩展在文本分类中的应用研究被引量:10
- 2007年
- 在采用VSM模型进行文本分类时,如果特征向量维数相差悬殊,会给分类结果产生很大负面影响。为了解决这一问题,本文引入了特征向量扩展的思想,同时定义了有效原始信息浓度的概念。特征向量扩展以HowNet语义词典为依据,对高维和低维特征向量采用不同的扩展策略,从而减小了不同类别语料间有效原始信息浓度的差值,进而改善复杂语料的分类结果。实验表明该方法在复杂语料情况下,通过对特征向量进行HowNet语义扩展,可以较好的改善分类结果。
- 孙宏纲陆余良刘金红龚笔宏
- 关键词:计算机应用中文信息处理HOWNETVSM模型文本分类