您的位置: 专家智库 > >

山西省回国留学人员科研经费资助项目(2002004)

作品数:15 被引量:106H指数:8
相关作者:张永奎张彦任晓东薛晓飞王鹏更多>>
相关机构:山西大学中国人民解放军91708部队晋中学院更多>>
发文基金:山西省回国留学人员科研经费资助项目山西省自然科学基金国家自然科学基金更多>>
相关领域:自动化与计算机技术文化科学更多>>

文献类型

  • 14篇期刊文章
  • 2篇会议论文

领域

  • 16篇自动化与计算...

主题

  • 6篇新闻
  • 5篇中文
  • 4篇信息处理
  • 3篇新闻网
  • 3篇新闻网页
  • 3篇去重
  • 3篇网页
  • 3篇网页去重
  • 3篇文本分类
  • 2篇新事件检测
  • 2篇事件新闻
  • 2篇突发事件
  • 2篇突发事件新闻
  • 2篇去重算法
  • 2篇中文信息
  • 2篇中文信息处理
  • 2篇文本
  • 2篇向量
  • 2篇向量空间
  • 2篇向量空间模型

机构

  • 16篇山西大学
  • 2篇教育部
  • 2篇中国人民解放...
  • 1篇晋中学院
  • 1篇太原空管中心

作者

  • 13篇张永奎
  • 3篇王鹏
  • 3篇张彦
  • 2篇罗永莲
  • 2篇薛晓飞
  • 2篇任晓东
  • 2篇刘睿
  • 2篇安增波
  • 1篇杨丽英
  • 1篇王强
  • 1篇陈鑫
  • 1篇陈炯
  • 1篇李红娟
  • 1篇樊旭琴
  • 1篇李红娟
  • 1篇李东艳
  • 1篇李宝富

传媒

  • 5篇计算机工程与...
  • 4篇计算机应用
  • 3篇电脑开发与应...
  • 1篇计算机工程
  • 1篇计算机工程与...

年份

  • 1篇2010
  • 1篇2009
  • 4篇2008
  • 3篇2007
  • 3篇2006
  • 2篇2005
  • 1篇2004
  • 1篇2003
15 条 记 录,以下是 1-10
排序方式:
突发事件新闻语料分类体系研究
分析了突发事件新闻的特点、建设突发事件新闻语料库的目的和意义,研究了突发事件新闻语料的分类体系和编码。研究结果对突发事件新闻语料库的建设、突发事件新闻信息检索、国家相关部门对突发事件应急处理方案制定以及对流行病学的医学研...
杨丽英李红娟张永奎
关键词:突发事件新闻
文献传递
基于混合特征的中文文本分类被引量:1
2005年
特征抽取是中文文本分类的重点和难点,文中比较了不同特征单元对分类性能的影响,将字特征与词特征相结合以期更好地表现文本特征。并在构建的实验系统中比较了不同特征单元的分类准确性,发现采用混合特征来进行分类,能得到较好的分类效果。
罗永莲张永奎
关键词:文本分类特征抽取
基于词对向量空间模型的新事件检测方法被引量:4
2010年
新事件检测(NED)的目标是从一个或多个新闻源中检测出报道一个新闻话题的第一个新闻。传统向量空间模型采用单个词来表示文本特征,考虑到词的位置信息以及其他的表示内容的信息,提出了词对表示文本的方法,并结合HowNet资源对所抽取的词对进行归一化处理,最后对不同类别新闻中不同词性对的权重参数进行优化。通过在已有的突发性新闻语料上进行实验,表明这种改进方法的效果比较明显,性能也有一定的提高。
樊旭琴张永奎
关键词:向量空间模型新事件检测
一种基于词聚类的中文文本主题抽取方法被引量:24
2005年
提出了一种基于词聚类的中文文本主题抽取方法,该方法利用相关度对词的共现进行分 析,建立词之间的语义关联,并生成代表某一主题概念的用种子词表示的词类。对于给定文档,先进 行特征词抽取,再借助词类生成该文档的主题因子,最后按权重输出主题因子,作为文本的主题。实 验结果表明,该方法具有较高的抽准率。
陈炯张永奎
关键词:主题抽取词聚类
基于K-Modes聚类的自适应话题追踪技术被引量:13
2009年
传统自适应话题追踪用向量空间模型表示一个话题模型,通常会对话题模型更新带来错误的反馈。针对传统自适应话题追踪中话题模型的不足,提出基于K-Modes聚类的自适应话题追踪方法(K-MATT方法),用话题类中心代替话题模型,把命名实体向量空间模型作为话题类中心,在追踪过程中不断迭代更新话题类中心,直到话题类中心稳定。实验证明K-MATT方法是有效的。
任晓东张永奎薛晓飞
基于发布时间的新闻网页去重方法研究被引量:5
2007年
网页检索结果中,用户经常会得到内容相同的冗余页面。它们不但浪费了存储资源,而且给信息检索或其它文本处理带来诸多不便。论文在抽取出新闻标题、主题内容和发布日期的前提下,依据新闻的时间性(易碎性),按发布日期分“群”,对冗余网页去重方法进行了探索性研究,从而很大程度地缩小了计算时间,提高了去重准确性。
罗永莲张永奎
关键词:新闻网页网页去重权值计算
基于类别关键词的突发事件新闻文本分类方法被引量:11
2008年
对突发事件新闻领域的文本自动分类问题进行了研究,提出了一种基于类别关键词的分类方法。在应用向量空间模型的基础上,充分考虑了类别关键词对于文本分类的特殊作用,并进行了实验。实验结果表明,加入类别关键词后,文本分类的精度有较大的提高,该方法具有一定的实用价值。
张永奎李红娟
关键词:文本分类向量空间模型突发事件新闻
基于文本的分类方法研究被引量:9
2003年
讨论了几种基于文本的分类技术的原理和方法 ,基于语义网络的概念推理网利用关键概念和其他概念间的相互关系 ,模拟人脑的推理思维模式 ,将文档分类、模式匹配转化为一个文档匹配的推理过程 ,实现文本分类。比较了这几种方法 。
陈鑫
关键词:文本分类语义网络互联网技术文本信息处理
基于新闻要素的新事件检测方法研究被引量:9
2008年
新事件检测(NED)的目标是检测出报道一个新闻话题种子事件的第一个新闻。考虑到新闻的基本要素在新闻中的作用,采用特征加权的方式对传统的词频和倒排文档频率(TF-IDF)模型进行改进,并在新闻报道中提取出时间信息和地点信息,分别对内容相似度、时间相似度和地点相似度进行计算,并将三者结合来检测新事件。实验证明这种方法有效。
薛晓飞张永奎任晓东
关键词:新事件检测相似度计算
Web新闻语料分词和标注错误分析被引量:5
2007年
通过分析Web突发事件语料库文本的加工统计得出11类错误类型,并对其中的一些错误提出了解决方案。研究结果不仅对语料库加工初期分词、标注方法的改进有启发作用,而且对中文的自动校对方法,提供一定的借鉴。
张永奎张彦安增波刘睿
关键词:中文信息处理分词词性标注
共2页<12>
聚类工具0