高君宇 作品数:23 被引量:42 H指数:3 供职机构: 中国科学院自动化研究所 更多>> 发文基金: 国家自然科学基金 国家重点基础研究发展计划 山东省自然科学基金 更多>> 相关领域: 自动化与计算机技术 更多>>
一种基于测试时自适应提示信息的视觉语言导航方法 本发明公开了一种基于测试时自适应提示信息的视觉语言导航方法,包括:获取基于自然语言的导航指令和智能体的360度全景视觉观测信息;提取子图像的低频视觉特征并从图像记忆库中选择有价值的信息进行提示;提取导航指令对应的文本特征... 徐常胜 高君宇 姚暄弱监督视频场景图生成方法、装置及电子设备 本发明提供一种弱监督视频场景图生成方法、装置及电子设备,其中,该方法包括:将目标视频输入训练好的弱监督视频场景图生成模型,得到所述目标视频对应的视频场景图;其中,所述弱监督视频场景图生成模型基于样本视频集、所述样本视频集... 徐常胜 高君宇 吴子越视频片段检索方法、装置、介质与电子设备 本公开提供一种视频片段检索方法、装置、介质与电子设备。其中,视频片段检索方法包括:将原始视频分割为多个候选片段;提取每个所述候选片段的视觉特征;在获取到查询语句时,解析所述查询语句中的语义特征;将所述语义特征与所述候选片... 徐常胜 高君宇 吴子越 姚寒星文献传递 基于深度学习的鲁棒性L1跟踪系统 基于稀疏表示的L1跟踪方法近年来在视觉跟踪中获得了较大的成功.但其直接使用视额序列各帧内的像素值对模板和目标候选进行表示,而没有考虑到各图像块内部的深度特征信息.发现,在固定摄像头的视频监控场景中,通常可以找到一块区域,... 高君宇 杨小汕 张天柱 徐常胜关键词:视频图像 鲁棒性 文献传递 基于深度学习的鲁棒性视觉跟踪方法 被引量:30 2016年 传统的视觉跟踪方法(如L1等)大多直接使用视频序列各帧内的像素级特征进行建模,而没有考虑到各图像块内部的深层视觉特征信息.在现实世界的固定摄像头视频监控场景中,通常可以找到一块区域,该区域中目标物体具有清晰、易于分辨的表观.因此,文中在各视频场景内事先选定一块可以清晰分辨目标表观的参考区域用以构造训练样本,并构建了一个两路对称且权值共享的深度卷积神经网络.该深度网络使得参考区域外目标的输出特征尽可能与参考区域内目标的输出特征相似,以获得参考区域内目标良好表征的特性.经过训练后的深度卷积神经网络模型具有增强目标可识别性的特点,可以应用在使用浅层特征的跟踪系统(如L1等)中以提高其鲁棒性.文中在L1跟踪系统的框架下使用训练好的深度网络提取目标候选的特征进行稀疏表示,从而获得了跟踪过程中应对遮挡、光照变化等问题的鲁棒性.文中在25个行人视频中与当前国际上流行的9种方法对比,结果显示文中提出的方法的平均重叠率比次优的方法高0.11,平均中心位置误差比次优的方法低1.0. 高君宇 杨小汕 张天柱 徐常胜关键词:卷积神经网络 视觉跟踪 鲁棒性 计算机视觉 多模态零样本人体动作识别 被引量:4 2021年 目的在人体行为识别算法的研究领域,通过视频特征实现零样本识别的研究越来越多。但是,目前大部分研究是基于单模态数据展开的,关于多模态融合的研究还较少。为了研究多种模态数据对零样本人体动作识别的影响,本文提出了一种基于多模态融合的零样本人体动作识别(zero-shot human action recognition framework based on multimodel fusion,ZSAR-MF)框架。方法本文框架主要由传感器特征提取模块、分类模块和视频特征提取模块组成。具体来说,传感器特征提取模块使用卷积神经网络(convolutional neural network,CNN)提取心率和加速度特征;分类模块利用所有概念(传感器特征、动作和对象名称)的词向量生成动作类别分类器;视频特征提取模块将每个动作的属性、对象分数和传感器特征映射到属性—特征空间中,最后使用分类模块生成的分类器对每个动作的属性和传感器特征进行评估。结果本文实验在Stanford-ECM数据集上展开,对比结果表明本文ZSAR-MF模型比基于单模态数据的零样本识别模型在识别准确率上提高了4%左右。结论本文所提出的基于多模态融合的零样本人体动作识别框架,有效地融合了传感器特征和视频特征,并显著提高了零样本人体动作识别的准确率。 吕露露 黄毅 高君宇 杨小汕 徐常胜关键词:多模态融合 传感器数据 视频特征 基于自监督图对比学习的视频问答方法 2023年 视频问答作为一种跨模态理解任务,在给定一段视频和与之相关的问题的条件下,需要通过不同模态语义信息之间的交互来产生问题的答案.近年来,由于图神经网络在跨模态信息融合与推理方面强大的能力,其在视频问答任务中取得了显著的进展.但是,大多数现有的图网络方法由于自身固有的过拟合或过平滑、弱鲁棒性和弱泛化性的缺陷使得视频问答模型的性能未能进一步提升.鉴于预训练技术中自监督对比学习方法的有效性和鲁棒性,在视频问答任务中利用图数据增强的思路提出了一种图网络自监督对比学习框架GMC.该框架使用针对节点和边的两种数据增强操作来生成相异子样本,并通过提升原样本与生成子样本图数据预测分布之间的一致性来提高视频问答模型的准确率和鲁棒性.在视频问答公开数据集上通过与现有先进的视频问答模型和不同GMC变体模型的实验对比验证了所提框架的有效性. 姚暄 高君宇 徐常胜视频动态推荐装置 本发明涉及社交媒体的视频挖掘和分析技术领域,具体提供了一种视频动态推荐装置,旨在解决如何准确地刻画用户的动态兴趣和视频推荐。为此目的,本发明中的视频动态推荐装置包括视频推荐模型,其可以依据一个或多个历史时刻的视频信息,获... 徐常胜 张天柱 高君宇文献传递 时序动作单元感知的开集动作识别 2023年 开集动作识别任务要求模型不仅能准确识别训练集中的类别,还能拒绝训练集上未出现的未知类动作.目前,大多数方法都将动作视为一个整体,忽略动作本身可被分解为更细粒度的动作单元.为此,文中提出时序动作单元感知的开集动作识别方法.首先,设计动作单元关系模块,学习细粒度的动作单元特征,得到动作和动作单元的关系模式,并通过已知类动作和未知类动作在动作单元上不同的激活程度识别未知类动作.然后,设计动作单元时序模块,建模动作单元的时序信息,研究动作单元的时序性,进一步区分因为外观相似而被混淆的已知类动作和未知类动作.最后,综合考虑关系模式与动作单元时序信息,使模型具备区分已知类动作和未知类动作的能力.在3个动作识别数据集上的实验表明,文中方法性能较优. 杨凯翔 高君宇 冯洋博 徐常胜视频动态推荐装置 本发明涉及社交媒体的视频挖掘和分析技术领域,具体提供了一种视频动态推荐装置,旨在解决如何准确地刻画用户的动态兴趣和视频推荐。为此目的,本发明中的视频动态推荐装置包括视频推荐模型,其可以依据一个或多个历史时刻的视频信息,获... 徐常胜 张天柱 高君宇