公共文化服务平台

共 4 条记录，以下是 1-4

全选清除导出

排序方式：

基于声学特征的语言情感识别被引量：9: 2015年; 语音情感识别是语音处理领域中一个具有挑战性和广泛应用前景的研究课题。探索了语音情感识别中的关键问题之一:生成情感识别的有效的特征表示。从4个角度生成了语音信号中的情感特征表示:(1)低层次的声学特征,包括能量、基频、声音质量、频谱等相关的特征,以及基于这些低层次特征的统计特征;(2)倒谱声学特征根据情感相关的高斯混合模型进行距离转化而得出的特征;(3)声学特征依据声学词典进行转化而得出的特征;(4)声学特征转化为高斯超向量的特征。通过实验比较了各类特征在情感识别上的独立性能,并且尝试了将不同的特征进行融合,最后比较了不同的声学特征在几个不同语言的情感数据集上的效果(包括IEMOCAP英语情感语料库、CASIA汉语情感语料库和Berlin德语情感语料库)。在IEMOCAP数据集上,系统的正确识别率达到了71.9%,超越了之前在此数据集上报告的最好结果。; 金琴陈师哲李锡荣杨刚许洁萍; 关键词：语音情感识别声学特征

标签增强的中文看图造句被引量：2: 2019年; 图像数据飞速增多,而计算机与人对图像数据的理解间存在语义鸿沟.如何有效地理解、管理和组织图像数据是学术界和工业界面临的一个重大挑战.利用计算机自动生成能够描述图像内容的自然语言描述有助于弥合语义鸿沟,从而提升对图像数据的理解.现有工作致力于英文句子生成.与之不同的是,该文实现了一个面向中文的看图造句系统.通过大规模机器翻译克服了中文训练数据缺乏的问题,同时提出了结合中文标签自动预测,对深度模型预测句子进行重排序的增强方法,改善句子生成质量.在两个中文图像句子数据集Flickr8k-cn和Flickr30k-cn上的实验表明,该文提出的标签增强方法可以有效改善现有两种看图造句模型(Google模型和Attention模型)所生成句子的质量.标签增强使得Google模型在Flickr8k-cn测试集上的CIDEr指标从0.474提高到0.503,Flickr30k-cn测试集上的CIDEr指标从0.325提高到0.356.通过标签增强,Attention模型在这两个数据集上的CIDEr分别从0.510提高到0.536,从0.392提高到到0.411.; 蓝玮毓王晓旭杨刚李锡荣; 关键词：机器翻译

多模态深度学习及其在眼科人工智能的应用展望被引量：6: 2021年; 深度学习的强学习能力和高易用性使其成为当前主流机器学习算法和医学人工智能的核心技术。鉴于医学影像在健康筛查、疾病诊断、精准治疗、预后评估等诸多任务中的关键作用,用于医学影像结构分析与语义理解的深度学习正成为重要的交叉学科研究方向。在临床场景中,医生为了实现更精准的诊断,往往需要同时参考不同类型、不同模态的影像样本进行综合分析和判断。本文介绍面向此类场景的多模态深度学习的基本概念和工作原理,结合具体案例分析多模态深度学习在眼科领域的研究进展、应用情况及技术挑战,并对该技术的应用前景作出展望。; 李锡荣; 关键词：眼科人工智能

基于软近邻投票的图像标签相关性计算被引量：4: 2014年; 如何自动判断社会化标签与图像内容之间的相关性是社会化多媒体内容检索领域一个重要的研究问题.近邻投票算法是已知的计算标签相关性的最有效方法之一.但该算法采用硬投票策略,并未考虑近邻图像的权重以及近邻图像自身标签的质量.针对上述问题,文中提出一种一般性的软近邻投票框架,通过考察近邻权重和近邻标签权重这两个维度,系统性地比较了23种软近邻投票实现方案.以近120万张Flickr图像为训练集、约两万张图像为测试集的实验表明,软近邻投票策略要优于硬投票策略:平均查准率从0.764提升到0.783,且软近邻投票对于近邻个数这一重要参数的选取相对不敏感.; 李锡荣许洁萍薛盛博杨刚; 关键词：图像检索社会化标签

全选清除导出

共1页<1>

李锡荣