摘要
本发明涉及视频处理技术,公开了一种视频字幕的翻译同步方法、系统、设备及存储介质。该方法包括:根据字幕时间对获取的音频源文件进行切分,得到音频片段;将属于目标角色的目标音频片段合并得到预测合并音频文件;根据字幕文件确定字幕内容,利用预设大语言模型将属于目标角色的相邻字幕内容并进行合并得到预测合并字幕文件;利用预测合并音频文件与预测合并字幕文件对字幕文件进行校验处理,得到目标字幕文件;对目标字幕文件进行翻译得到翻译字幕,根据翻译字幕合成目标翻译音频,根据目标翻译音频与音频源文件的长度关系对翻译字幕进行调整得到目标翻译字幕。本发明可以提升字幕对应角色的识别准确度。
技术关键词
翻译字幕
音频
同步方法
大语言模型
视频
计算机设备
计算机存储介质
处理器
关系
模块
存储器
时间段
语义
系统为您推荐了相关专利信息
文本
语义向量
评价方法
轻量级卷积神经网络
视频帧
运动特征
深度卷积神经网络
关键点
指标
斯皮尔曼相关系数
大语言模型
网络模块
问答对数据
场景
计算机可执行指令
语音情感识别方法
语音情感识别模型
跨模态
注意力机制
编码模块