唇音同步检测方法、装置、计算机设备及存储介质

AITNT
正文
推荐专利
唇音同步检测方法、装置、计算机设备及存储介质
申请号:CN202411084949
申请日期:2024-08-08
公开号:CN118945393A
公开日期:2024-11-12
类型:发明专利
摘要
本申请实施例属于人工智能领域,涉及一种唇音同步检测方法,包括:解析音视频的视频时间戳和音频时间戳,以根据视频时间戳和音频时间戳对音视频中的视频和音频进行对齐;将音视频分割为多个短片段;将各短片段输入唇音同步检测模型,并通过唇音同步检测模型中的短时模型输出各短片段的视频特征和音频特征;将各短片段的视频特征和音频特征输入唇音同步检测模型中的长时模型,得到音视频的跨模态长时序上下文信息;根据跨模态长时序上下文信息进行唇音同步检测,得到唇音同步检测结果。本申请还提供一种唇音同步检测装置、计算机设备及存储介质。本申请提高了音唇同步检测的准确性。
技术关键词
音视频 同步检测方法 音频特征 计算机可读指令 同步检测装置 插值算法 跨模态 计算机设备 时序 可读存储介质 视频帧 人脸 对齐模块 处理器 存储器
系统为您推荐了相关专利信息
1
基于生物反馈的乳房切除术后幻痛智能缓解系统和方法
乳房切除术后患者 云端管理平台 穿戴设备 计算机可读取存储介质 表面肌电
2
一种可监控摄像头旋转角度的生命探测仪
生命探测仪 音视频 摄像头旋转角度 远程监控中心 电机驱动装置
3
一种基于风格向量的语音驱动数字人面部视频生成方法
视频生成方法 视频编码 风格 音频特征 音频编码器
4
使用机器学习模型生成图像的方法、系统、存储介质
机器学习模型 注意力 对象 计算机可读指令 非暂态计算机可读存储介质
5
数据灰度放量方法、装置、设备及存储介质
瓦块 数据 客户端 计算机可读指令 白名单
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号