视频处理方法、装置、电子设备、存储介质及程序产品

正文

推荐专利

申请号：CN202510464452

申请日期：2025-04-14

公开号：CN120568160A

公开日期：2025-08-29

类型：发明专利

摘要

本公开涉及一种视频处理方法、装置、电子设备、存储介质及程序产品，对目标视频进行语音识别，得到识别结果；响应于该识别结果包括多个分句文本和时间戳信息，将该分句文本输入目标大语言模型，输出多个文本分段索引，该多个分句文本为该目标视频对应的音频文本中连续的分句内容，该时间戳信息用于指示该多个分句文本分别与该目标视频的时间戳映射关系，该文本分段索引用于指示该大语言模型将该多个分句文本按照语义划分得到的语义相关且连续的文本片段；基于该时间戳信息和该多个文本分段索引，确定多个视频分段索引，该多个视频分段索引用于将该目标视频分割为多个视频片段，该多个视频片段分别对应该多个分段索引指示的文本片段。

技术关键词

视频文本大语言模型索引分段训练样本集镜头边界计算机程序产品语义电子设备存储计算机程序语音处理器音频输出模块识别模块可读存储介质图像关系

系统为您推荐了相关专利信息

一种政策文本解读方法及装置

核心深度学习网络模型文本数据解读方法

一种智慧人机交互方法、系统、设备及介质

实时视频流人机交互方法动作交互后台服务器 WebSocket服务器

一种基于神经网络的IMU相机标定系统及方法

标定板相机标定方法数据处理终端立体视觉深度图片

基于网格纹理的单目视频服装纹理替换方法

纹理替换方法多层感知机网格视频网络

一种大语言模型驱动的自动驾驶运动规划方法和系统

自动驾驶运动规划大语言模型仿真环境轨迹运动规划系统

视频处理方法、装置、电子设备、存储介质及程序产品

站点导航

APP 下载