唇音同步检测方法、装置、计算机设备及存储介质

正文

推荐专利

申请号：CN202411084949

申请日期：2024-08-08

公开号：CN118945393A

公开日期：2024-11-12

类型：发明专利

摘要

本申请实施例属于人工智能领域，涉及一种唇音同步检测方法，包括：解析音视频的视频时间戳和音频时间戳，以根据视频时间戳和音频时间戳对音视频中的视频和音频进行对齐；将音视频分割为多个短片段；将各短片段输入唇音同步检测模型，并通过唇音同步检测模型中的短时模型输出各短片段的视频特征和音频特征；将各短片段的视频特征和音频特征输入唇音同步检测模型中的长时模型，得到音视频的跨模态长时序上下文信息；根据跨模态长时序上下文信息进行唇音同步检测，得到唇音同步检测结果。本申请还提供一种唇音同步检测装置、计算机设备及存储介质。本申请提高了音唇同步检测的准确性。

技术关键词

音视频同步检测方法音频特征计算机可读指令同步检测装置插值算法跨模态计算机设备时序可读存储介质视频帧人脸对齐模块处理器存储器

系统为您推荐了相关专利信息

一种垃圾焚烧过程智能监控方法及系统、电子设备

智能监控方法迁移学习技术深度学习算法强化学习算法计算机可读指令

一种视觉导航模型训练方法、系统、设备和可读存储介质

导航模型训练方法强化学习算法视频帧决策计算机可读指令

基于SOM网络的消防机器人增强型路径规划方法及系统

消防机器人路径规划方法障碍物计算机可读指令网络

基于多模态大模型协同的视频剪辑方法及系统

视频剪辑方法多模态语句关键词分块

一种蓝牙音频的测试方法、装置、电子设备及存储介质

长短期记忆网络待测设备音频特征神经网络模型蓝牙

唇音同步检测方法、装置、计算机设备及存储介质

站点导航

APP 下载