摘要
本说明书实施例提供了视频处理方法及装置,其中,一种视频处理方法包括:在视频文件的音频和视频的基础上,通过对音频进行语音识别处理获得语音文本,并根据视频的字幕文本对语音文本进行校正处理获得校正语音文本,进一步将视频和校正语音文本输入多模态模型进行剧情识别处理获得剧情理解文案,然后对剧情理解文案进行剧情切分,并将获得的分段剧情文案与校正语音文本输入视频解说生成模型进行解说文案生成获得分段解说文案,最终将分段解说文案与视频进行匹配生成解说视频文件,以此从视频文件的音频和视频出发实现视频文件的解说生成。
技术关键词
分段
字幕
音频匹配
计算机可执行指令
多模态
时间段
音频特征
视频帧
语音识别模型
文本校正
大语言模型
关键词
字段
语义
系统为您推荐了相关专利信息
移动电力系统
电源模块
电能路由器
无线能量传输装置
载体模块
健康评价方法
大语言模型
微调工具
多轮对话
单轮
异常检测方法
客户端
多模态
计算机程序指令
特征提取器