唇音同步检测方法、装置、计算机设备及存储介质

AITNT
正文
推荐专利
唇音同步检测方法、装置、计算机设备及存储介质
申请号:CN202411084949
申请日期:2024-08-08
公开号:CN118945393A
公开日期:2024-11-12
类型:发明专利
摘要
本申请实施例属于人工智能领域,涉及一种唇音同步检测方法,包括:解析音视频的视频时间戳和音频时间戳,以根据视频时间戳和音频时间戳对音视频中的视频和音频进行对齐;将音视频分割为多个短片段;将各短片段输入唇音同步检测模型,并通过唇音同步检测模型中的短时模型输出各短片段的视频特征和音频特征;将各短片段的视频特征和音频特征输入唇音同步检测模型中的长时模型,得到音视频的跨模态长时序上下文信息;根据跨模态长时序上下文信息进行唇音同步检测,得到唇音同步检测结果。本申请还提供一种唇音同步检测装置、计算机设备及存储介质。本申请提高了音唇同步检测的准确性。
技术关键词
音视频 同步检测方法 音频特征 计算机可读指令 同步检测装置 插值算法 跨模态 计算机设备 时序 可读存储介质 视频帧 人脸 对齐模块 处理器 存储器
系统为您推荐了相关专利信息
1
一种垃圾焚烧过程智能监控方法及系统、电子设备
智能监控方法 迁移学习技术 深度学习算法 强化学习算法 计算机可读指令
2
一种视觉导航模型训练方法、系统、设备和可读存储介质
导航模型训练方法 强化学习算法 视频帧 决策 计算机可读指令
3
基于SOM网络的消防机器人增强型路径规划方法及系统
消防机器人 路径规划方法 障碍物 计算机可读指令 网络
4
基于多模态大模型协同的视频剪辑方法及系统
视频剪辑方法 多模态 语句 关键词 分块
5
一种蓝牙音频的测试方法、装置、电子设备及存储介质
长短期记忆网络 待测设备 音频特征 神经网络模型 蓝牙
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号