摘要
本申请公开了一种视频文字任务的处理方法、装置、设备、介质及程序产品,涉及视频处理技术、人工智能技术、大模型技术、大语言模型技术领域,该方法包括:获取第一视频,并对第一视频进行帧采样得到第一图像帧;对第一图像帧进行文字识别,得到第一图像帧的文字识别结果;基于文字识别结果进行文本跟踪,得到第一视频的第一文本轨迹,第一文本轨迹包括文本内容以及文本内容的时空属性信息;基于第一文字任务处理模型对第一图像帧、第一文本轨迹以及第一提示信息进行处理,得到目标视频文字任务的处理结果,第一提示信息用于指示第一文字任务处理模型进行目标视频文字任务的处理。该方法提高了视频文字任务的处理效率以及准确性。
技术关键词
文本
时空属性信息
视频
轨迹
图像
样本
编码模块
语言模块
可读存储介质
大语言模型
人工智能技术
指令
视觉
计算机程序产品
图片
存储器
标签