摘要
本公开涉及一种视频处理方法、装置、电子设备、存储介质及程序产品,对目标视频进行语音识别,得到识别结果;响应于该识别结果包括多个分句文本和时间戳信息,将该分句文本输入目标大语言模型,输出多个文本分段索引,该多个分句文本为该目标视频对应的音频文本中连续的分句内容,该时间戳信息用于指示该多个分句文本分别与该目标视频的时间戳映射关系,该文本分段索引用于指示该大语言模型将该多个分句文本按照语义划分得到的语义相关且连续的文本片段;基于该时间戳信息和该多个文本分段索引,确定多个视频分段索引,该多个视频分段索引用于将该目标视频分割为多个视频片段,该多个视频片段分别对应该多个分段索引指示的文本片段。
技术关键词
视频
文本
大语言模型
索引
分段
训练样本集
镜头边界
计算机程序产品
语义
电子设备
存储计算机程序
语音
处理器
音频
输出模块
识别模块
可读存储介质
图像
关系
系统为您推荐了相关专利信息
实时视频流
人机交互方法
动作交互
后台服务器
WebSocket服务器
标定板
相机标定方法
数据处理终端
立体视觉深度
图片
自动驾驶运动规划
大语言模型
仿真环境
轨迹
运动规划系统