视频文字任务的处理方法、装置、设备、介质及程序产品

正文

推荐专利

申请号：CN202511072926

申请日期：2025-07-31

公开号：CN120976905A

公开日期：2025-11-18

类型：发明专利

摘要

本申请公开了一种视频文字任务的处理方法、装置、设备、介质及程序产品，涉及视频处理技术、人工智能技术、大模型技术、大语言模型技术领域，该方法包括：获取第一视频，并对第一视频进行帧采样得到第一图像帧；对第一图像帧进行文字识别，得到第一图像帧的文字识别结果；基于文字识别结果进行文本跟踪，得到第一视频的第一文本轨迹，第一文本轨迹包括文本内容以及文本内容的时空属性信息；基于第一文字任务处理模型对第一图像帧、第一文本轨迹以及第一提示信息进行处理，得到目标视频文字任务的处理结果，第一提示信息用于指示第一文字任务处理模型进行目标视频文字任务的处理。该方法提高了视频文字任务的处理效率以及准确性。

技术关键词

文本时空属性信息视频轨迹图像样本编码模块语言模块可读存储介质大语言模型人工智能技术指令视觉计算机程序产品图片存储器标签

视频文字任务的处理方法、装置、设备、介质及程序产品

站点导航

APP 下载