您的位置: 专家智库 > >

钱彦旻

作品数:18 被引量:9H指数:1
供职机构:上海交通大学更多>>
发文基金:江苏省基础研究计划国家自然科学基金更多>>
相关领域:自动化与计算机技术文化科学电子电信更多>>

文献类型

  • 17篇专利
  • 1篇期刊文章

领域

  • 3篇自动化与计算...
  • 1篇电子电信
  • 1篇文化科学

主题

  • 11篇语音
  • 5篇声学特征
  • 5篇网络
  • 4篇音素
  • 4篇神经网
  • 4篇神经网络
  • 4篇声学模型
  • 4篇欺骗检测
  • 3篇语言模型
  • 3篇语音识别
  • 3篇解码
  • 3篇后验概率
  • 2篇递归神经
  • 2篇递归神经网络
  • 2篇定制
  • 2篇端到端
  • 2篇音频
  • 2篇音频数据
  • 2篇语音信息
  • 2篇噪声

机构

  • 18篇上海交通大学
  • 13篇苏州思必驰信...
  • 1篇上海交通大学...
  • 1篇上海交通大学...

作者

  • 18篇钱彦旻
  • 5篇俞凯
  • 2篇陈楠昕

传媒

  • 1篇计算机学报

年份

  • 1篇2022
  • 3篇2020
  • 8篇2019
  • 3篇2018
  • 1篇2017
  • 2篇2016
18 条 记 录,以下是 1-10
排序方式:
困难气道的检测方法及其电子设备和存储介质
本发明实施例提供一种困难气道的检测方法。该方法包括:对用户的语音音频进行声学特征提取和语音活性检测;将提取的声学特征进行平均池化处理,得到第一嵌入向量;将活性检测后的发声帧输入至用于表征困难气道的说话人的深度说话人模型,...
钱彦旻周之恺夏明姜虹曹爽
文献传递
基于深度学习的说话人语音欺骗攻击检测方法及系统
一种基于深度学习的说话人语音欺骗攻击检测方法及系统,通过构建音频训练集,初始化并采用训练集的多帧特征向量和单帧向量序列分别训练深度前馈神经网络和深度递归神经网络;在测试阶段,将待测音频的帧级别和序列级别特征向量分别导入经...
钱彦旻陈楠昕俞凯
用于数据增强的语音加噪方法及系统
本发明实施例提供一种用于数据增强的语音加噪方法。该方法包括:将无噪音频和带噪音频的说话人向量输入至条件变分自编码模型,对模型编码器输出的向量均值以及方差向量随机高斯分布采样,得到噪音隐向量;将噪音隐向量和无噪音频输入至模...
俞凯钱彦旻吴章昊王帅
文献传递
欺骗录音检测神经网络模型的优化方法及系统
本发明实施例提供一种欺骗录音检测神经网络模型的优化方法。该方法包括:基于特征提取器、欺骗检测器和领域预测器构建欺骗录音检测神经网络模型;将源域数据以及目标域数据输入至特征提取器;将特征提取器的输出分别输入至欺骗检测器和领...
俞凯钱彦旻王鸿基丁翰林王帅
文献传递
可定制语音唤醒方法及系统
一种可定制语音唤醒方法及系统,通过使用基于长短时记忆网络和连接时序分类模型对语音信息的音素信息进行建模并对模型进行训练,采用训练后模型进行测试并在生成的Lattice网络结构上搜索与定制的唤醒词最相似的可能音素序列来作为...
俞凯钱彦旻庄毅萌陈哲怀常烜恺
文献传递
音频数据识别方法及系统
本发明实施例提供一种音频数据识别方法。该方法包括:将待识别的音频数据按照时间戳的先后顺序划分成多个音频数据片段;基于待识别的音频数据的声学特征,确定每个音频数据片段中各帧音频数据帧的预测概率集合;根据各帧音频数据帧的预测...
俞凯钱彦旻陈哲怀游永彬
文献传递
一种构建语言模型的方法、输入法及系统
本发明公开一种构建语言模型的方法,包括:获取文本数据中的句子的未来向量,句子的未来向量为句子反向之后所提取的向量;以文本数据中的句子中的前文为第一输入,以句子的未来向量作为第一输出,训练得到未来向量预测网络;至少以将所述...
俞凯钱彦旻刘奇
文献传递
单信道多说话人身份识别方法及系统
本发明公开一种单信道多说话人身份识别方法及系统,所述单信道多说话人身份识别方法包括:获取待识别的关于单信道多说话人的语音数据的混合帧级特征;将混合帧级特征输入至卷积神经网络模型,以由卷积神经网络模型推导关于多说话人各自作...
俞凯钱彦旻王帅
文献传递
儿童语音识别模型的训练方法及系统
本发明实施例提供一种儿童语音识别模型的训练方法。该方法包括:获取训练数据;通过基线声学模型训练得到无条件生成对抗网络;将随机噪声数据输入无条件生成对抗网络,得到噪声增强声学特征;将噪声增强声学特征输入至基线声学模型,得到...
钱彦旻吴松泽俞凯盛佩瑶杨卓林李晨达
文献传递
基于深度学习的说话人语音欺骗攻击检测方法及系统
一种基于深度学习的说话人语音欺骗攻击检测方法及系统,通过构建音频训练集,初始化并采用训练集的多帧特征向量和单帧向量序列分别训练深度前馈神经网络和深度递归神经网络;在测试阶段,将待测音频的帧级别和序列级别特征向量分别导入经...
钱彦旻陈楠昕俞凯
文献传递
共2页<12>
聚类工具0