您的位置: 专家智库 > >

国家自然科学基金(11176016)

作品数:6 被引量:25H指数:3
相关作者:管业鹏薛雷更多>>
相关机构:上海大学上海体育学院更多>>
发文基金:国家自然科学基金国家教育部博士点基金更多>>
相关领域:电子电信自动化与计算机技术电气工程理学更多>>

文献类型

  • 6篇期刊文章
  • 1篇学位论文

领域

  • 3篇电子电信
  • 3篇自动化与计算...
  • 1篇机械工程
  • 1篇电气工程
  • 1篇理学

主题

  • 2篇语音
  • 2篇语音情感
  • 2篇语音情感识别
  • 2篇情感识别
  • 1篇倒谱
  • 1篇倒谱系数
  • 1篇多尺度
  • 1篇多尺度小波
  • 1篇多尺度小波变...
  • 1篇异常行为检测
  • 1篇增量聚类
  • 1篇人脸
  • 1篇人脸识别
  • 1篇神经网
  • 1篇神经网络
  • 1篇视觉
  • 1篇说话人识别
  • 1篇图像
  • 1篇图像处理
  • 1篇谱系数

机构

  • 7篇上海大学
  • 1篇上海体育学院

作者

  • 4篇管业鹏
  • 2篇薛雷

传媒

  • 2篇工业控制计算...
  • 2篇电子器件
  • 1篇电子测量技术
  • 1篇激光与光电子...

年份

  • 1篇2023
  • 1篇2022
  • 1篇2020
  • 3篇2019
  • 1篇2014
6 条 记 录,以下是 1-7
排序方式:
基于LPBMFCC的文本无关说话人识别
2020年
为了解决特定说话人的高频信息无法被完全提取的问题,提出了一种新型的提取声道特征的方法,用于文本无关的说话人识别。首先提出了一组基于线性预测的梅尔频率倒谱系数(LPBMFCC)来消除干扰听觉能力的高频谐波,以区分两种不同的纯音,导出具有辨识性的声道特征。此外,提出利用多尺度小波分析来提取声源语音信号的时频特征作为LPBMFCC的补充特征。为了研究LPBMFCC和其他特征在说话人识别应用中的辨识能力,提出了一种基于距离测量的辨识力比较方案,可以在视觉上表示不同声学特征的分散。在基于高斯混合模型(GMM)的说话者识别系统的NIST 2008数据库上进行评估。实验结果表明,提出的LPBMFCC特征具有较强的辨识能力,与一些先进的方法相比,识别率高出5%~10%。而加入时频特征作为补充特征的LPBMFCC的识别率与不加时频特征时相比,识别率又有1%~4%的提高。因此,本文所提的方法具有更加优越的效果。
毛文青管业鹏
关键词:说话人识别
基于Transformer架构的语音情感识别研究被引量:1
2023年
为有效地提取情绪相关的特征,提出了基于特征融合Transformer的语音情感识别模型。Transformer编码器能够区分与情绪最相关的特征,声学特征融合进一步加强了神经网络提取的全局特征。将该方法应用于语音情感分析的关键数据集上,并做大量实验验证。相较于目前的很多方法,提出的方法能够有效地提升语音情感识别的准确率。
高利军薛雷
关键词:语音情感识别TRANSFORMER
基于卡尔曼预测粒子滤波的网球运动目标跟踪方法被引量:10
2019年
为有效跟踪视频网球运动,提出了一种基于卡尔曼滤波预测的粒子滤波网球运动跟踪方法。基于多尺度小波变换在时域和空域均具有优异的局部化特征,将相邻帧视频图像进行差分,提取反映前景运动的目标特征信息,克服光照变化以及网球运动尺度随时不断变化的不利因素影响;同时,基于网球场地结构化特性,排除场地外不利干扰因素影响。在此基础上,采用卡尔曼滤波对粒子进行预测和修正,将当前观测信息融入到粒子滤波过程中,估计预测粒子状态的均值和协方差,使动态粒子更加接近其后验概率分布,从而提高网球运动目标的跟踪精度。通过与同类方法在不同网球公开赛的定量对比,实验结果表明,所提方法能有效跟踪视频网球运动目标。
付饶管业鹏
关键词:粒子滤波卡尔曼滤波多尺度小波变换
基于人脸关键点与增量聚类的多姿态人脸识别被引量:9
2019年
人脸姿态变化复杂且对人脸识别性能影响明显,提出了一种融合LCCDN (LSTM and CNN based Cascade Deep Network)与增量聚类的多姿态人脸识别方法。采用LCCDN模型定位人脸关键点,利用长短时记忆网络(LSTM)的记忆功能寻找人脸各关键点在空间上的全局上下文的依赖关系对人脸关键点初始化,并通过卷积神经网络模型,采用由粗到精的策略;定位人脸关键点;以人脸关键点作为人脸朝向描述子,同时为适应人脸姿态不断地动态更新,采用基于熵诱导度量机制的增量聚类方法,对头部姿态进行动态增量聚类,构建人脸姿态池。在此基础上,通过建立不同姿态的人脸识别分类模型实现多姿态人脸识别,在CAS-PEAL-R1、CFP和Multi-PIE三个数据集上的人脸识别准确率分别达到96.75%,96.50%,97.82%。通过与同类人脸识别方法的客观定量对比,实验结果表明所提方法有效、可行。
吴晓萍管业鹏
关键词:图像处理人脸识别增量聚类多姿态
语音情感识别综述被引量:2
2022年
语音包含说话人的语义信息和丰富的情感信息。语音情感识别是人机交互的关键研究,对语音情感的有效识别能提升计算机等智能设备对说话人信息的理解度,从而更好地为人类服务。从语音情感识别的概念和发展情况入手,分别对语音情感模型分类和特点、语音情感数据集分类及描述、语音情感特征描述、语音情感识别算法分类和描述、语音情感识别应用和挑战进行了详细的阐述和总结。同时,对其未来发展趋势进行了展望。
高利军薛雷
关键词:语音情感识别人机交互
基于机器学习视觉目标分类识别方法研究
随着计算机技术的不断发展以及人们公共安全意识的日益加深,机器视觉目标分类识别在图像与视频分析方面受到广泛关注,其智能化要求越来越受到人们重视。论文在广泛阅读与调研国内外相关研究的基础上,针对目前机器学习视觉目标分类识别存...
翁政魁
关键词:卷积神经网络
文献传递
基于粒子流和能量模型的异常行为检测被引量:3
2014年
提出了一种基于单目摄像机的异常行为检测方法,可有效检测群聚群散事件。针对传统稠密光流法耗时大,抗噪声性差,对光照变化敏感,而稀疏光流又不能提供丰富运动信息的不足,提出采用二值前景为掩码计算局部稠密光流,既剔除了干扰,又减少耗时。针对光流仅能反应物体瞬时运动信息,不能反应运动的累积效应,不能描述物体间的相互影响,提出建立以光流为底层特征的粒子流场,以稳定地进行特征提取。最后,通过计算粒子幅值直方图的能量来进行异常行为的检测。搭建了实验监控系统,不同场景的实验表明,该方法实时性好,鲁棒。
汪双承管业鹏
关键词:光流
共1页<1>
聚类工具0