国家自然科学基金(61305088)
- 作品数:3 被引量:8H指数:2
- 相关作者:贡正仙吴玮周国栋孔芳李良友更多>>
- 相关机构:苏州大学苏州工业职业技术学院更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于空间向量模型的垃圾文本过滤方法被引量:4
- 2014年
- 针对垃圾文本识别计算的需求特性,应用VSM文本聚类算法思想,综合现有TFIDF算法特点,提出一种基于VSM和改进的TFIDF特征项提取算法.本方法在对垃圾文本高聚类特征项权值进行放大的同时,有效减小由二类数据样本数量偏差对计算结果带来的影响,提高了垃圾文本过滤识别效率和准确率.为垃圾文本识别提供了一种新的改进算法选择.
- 吴玮
- 关键词:空间向量模型
- 基于加权词汇衔接的文档级机器翻译自动评价被引量:1
- 2014年
- 在文档词汇衔接评价LC方法的基础上,提出基于权重的LC,即WLC,该方法通过在文档词图上运行PageRank算法获得词汇权重。根据词性信息使得PageRank算法偏向特定的词汇,并提出PWLC方法。实验表明,在文档级别上,所提出的两种方法与人工评价的相关度都优于LC;融合两种方法后,BLEU和TER在文档级别上的评价性能有显著提高。
- 贡正仙李良友
- 关键词:词汇衔接机器翻译PAGERANK
- 基于中英文可比较语料的中文零指代消解被引量:3
- 2017年
- 针对中文篇章中的零指代问题,提出一种基于中英文可比较语料进行中文零指代识别和消解的方法,并提出英文对等句的概念。利用对等句,重新定义句子间隔,并引入双语词对齐特征。在基准平台基础上,从零指代项识别和零指代项消解两个方面进行研究。在Onto Notes5.0语料上的实验结果表明,与目前性能最好的系统相比,新提出的基于中英对等语料的中文零指代方法取得更好的性能。
- 杨紫怡贡正仙孔芳周国栋
- 关键词:双语对等句消解