随着基于互联网的社交媒体兴起,Emoji由于具有以图形化方式快速准确地表达情绪的特点,目前已经成为用户在日常交流中广泛使用的图像文本。已有研究工作表明,在基于文本的情绪识别模型中考虑Emoji信息,对于提升模型性能具有重要的作用。目前,考虑Emoji信息的情绪识别模型大多采用词嵌入模型学习Emoji表示,得到的Emoji向量缺乏与目标情绪的直接关联,Emoji表示蕴含的情绪识别信息较少。针对上述问题,该文通过软标签为Emoji构建与目标情绪直接关联的情感分布向量,并将Emoji情感分布信息与基于预训练模型的文本语义信息相结合,提出融合Emoji情感分布的多标签情绪识别方法(Emoji Emotion Distribution Information Fusion for Multi-label Emotion Recognition,EIFER)。EIFER方法在经典的二元交叉熵损失函数的基础上,通过引入标签相关感知损失对情绪标签间存在的相关性进行建模,以提升模型的多标签情绪识别性能。EIFER方法的模型结构由语义信息模块、Emoji信息模块和多损失函数预测模块组成,采用端到端的方式对模型进行训练。在SemEval2018英文数据集上的情绪预测对比实验结果表明,该文提出的EIFER方法比已有的情绪识别方法具有更优的性能。
在信息检索中,潜在语义索引模型直接应用于文本分类时,由于对分类贡献大的特征可能丢失而效果不佳。而考虑了文本特征及分类信息的潜在语义文本分类模型(LSC)也因为本质上是线性模型而性能不高。为了提高分类性能,通过引入核函数,给出了一种非线性的潜在语义文本分类模型。该模型比LSC模型能更好地表示文档空间的潜在语义结构信息。在R eu ter-21578文档集上的实验结果表明,潜在语义文本分类模型有很好的分类性能。
在文本分类中,一个文本往往有多类属性,而目前大多数分类模型均为二元分类模型。因此,提出一种基于潜在语义的多类分类模型。该模型同时考虑文档特征信息和文档的类属信息,在提取文档潜在语义信息的同时把对文档分类贡献大的特征信息保留下来。其结果是既能较好地解决文档中同义词和多义词的问题,又能解决多类属分类问题,并且能够探测到新类。在R eu ters文档集上的实验表明,在维数较低的情况下,分类效果比较好,性能比较稳定。