一种基于大小模型协同融合的视频智能描述方法、系统和可读存储介质

正文

推荐专利

申请号：CN202510841555

申请日期：2025-06-23

公开号：CN120823538A

公开日期：2025-10-21

类型：发明专利

摘要

本发明属于人工智能视频分析技术领域，涉及一种基于大小模型协同融合的视频智能描述方法、系统和可读存储介质，包括：从输入的视频中提取关键帧；将视频的视觉特征输入轻量级预训练模型，获得视频的全局特征编码和视频的粗粒度概述；将关键帧输入大模型，生成视频的细粒度行为及交互细节编码；设定大小模型协同融合的提示词，将大小模型协同融合的提示词与全局特征编码、细粒度行为及交互细节编码输入大模型，生成兼具宏观完整性与微观准确性的视频自然语言描述。本发明生成多粒度语义描述内容精度较高，完整性好，确保对视频内容的整体性概括；有效解决了单一模型在概括性与细节保真度之间的权衡矛盾，显著提升语义完整性与场景适应性。

技术关键词

关键帧预训练模型自然语言视觉特征语义细粒度特征人工智能视频可读存储介质模块逻辑计算机模板场景编码器时序处理器算法序列

一种基于大小模型协同融合的视频智能描述方法、系统和可读存储介质

站点导航

APP 下载