张泽伟
- 作品数:2 被引量:10H指数:1
- 供职机构:北京信息科技大学更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于PMI-IR的联想词表构造方法研究被引量:1
- 2014年
- 通过对大规模查询日志进行挖掘分析进而提高检索的准确率一直是信息检索领域的热点问题。文章提出一种基于PMI-IR(逐点互信息方法)的联想词表构造方法。该方法利用序列模式挖掘算法扫描大规模用户查询日志,获取共现频次超过某一阈值的词组合,进行聚类获取候选同义词集,然后依次计算词wordA与每个候选词的相似度,选择相似度高于某一阈值的词作为词wordA的联想词集,最后形成联想词表。实验表明,借助该方法得到的联想词表进行扩展查询提高了检索的准确率。
- 张泽伟矫健张仰森
- 关键词:查询日志
- 面向政治新闻领域的中文文本校对方法研究被引量:9
- 2014年
- 政治新闻领域内文本错误多为语义级错误。在研究新闻领域文本政治性差错的语言表述特征的基础上,分析了报刊新闻中政治性差错的表现类型,构建了面向各类错误侦测的词库和知识库。通过研究政治新闻文本的语言学特征,提出了一个政治性差错文本错误侦测规则的一般形式化模型,采用统计与规则相结合的策略实现政治新闻领域文本的语义校对。实验结果显示,该方法的召回率为65.5%,精确率为80.5%,具有较好的应用前景。
- 张仰森唐安杰张泽伟
- 关键词:政治新闻文本校对