视频图像描述文本的生成方法、装置和存储介质

正文

推荐专利

申请号：CN202510632280

申请日期：2025-05-16

公开号：CN120689916A

公开日期：2025-09-23

类型：发明专利

摘要

本公开涉及图像处理技术领域，尤其涉及一种视频图像描述文本的生成方法、装置和存储介质，方法包括：对待描述视频进行抽帧处理和切割处理得到至少一帧待描述图像和至少一个待描述子视频；对待描述图像和待描述子视频均进行人脸检测处理，得到人脸检测结果；对待描述图像进行图片描述处理得到第一图像描述文本，对待描述子视频进行视频描述处理得到第一视频描述文本；针对目标待描述图像，将包含目标待描述图像的待描述子视频确定为目标待描述子视频；根据人脸检测结果，将目标待描述子视频的第一视频描述文本融合至目标待描述图像的第一图像描述文本中，得到目标待描述图像的图像描述文本。本公开实施例能够提高生成视频图像描述文本的准确性。

技术关键词

文本生成方法人脸关键词标识生成视频图像计算机程序产品上存储计算机程序图片图像处理模块可读存储介质图像处理技术处理器生成装置语义存储器电子设备

系统为您推荐了相关专利信息

视频会议多模态实时摘要生成方法

摘要生成方法多模态场景特征文本语义特征

基于自适应局部优化算法的穿刺针路径规划方法及系统

局部优化算法路径规划系统坐标系路径规划方法障碍物

语言幻觉检测模型的生成方法、装置及电子设备

大语言模型文本数据标签生成方法

基于多模态大模型的图文信息抽取方法、系统及存储介质

信息抽取方法图文多模态表格多任务

基于语义检索的文本问答方法、系统、电子设备及介质

问答方法文本语义大语言模型图谱

视频图像描述文本的生成方法、装置和存储介质

站点导航

APP 下载