摘要
本发明属于人工智能视频分析技术领域,涉及一种基于大小模型协同融合的视频智能描述方法、系统和可读存储介质,包括:从输入的视频中提取关键帧;将视频的视觉特征输入轻量级预训练模型,获得视频的全局特征编码和视频的粗粒度概述;将关键帧输入大模型,生成视频的细粒度行为及交互细节编码;设定大小模型协同融合的提示词,将大小模型协同融合的提示词与全局特征编码、细粒度行为及交互细节编码输入大模型,生成兼具宏观完整性与微观准确性的视频自然语言描述。本发明生成多粒度语义描述内容精度较高,完整性好,确保对视频内容的整体性概括;有效解决了单一模型在概括性与细节保真度之间的权衡矛盾,显著提升语义完整性与场景适应性。
技术关键词
关键帧
预训练模型
自然语言
视觉特征
语义
细粒度特征
人工智能视频
可读存储介质
模块
逻辑
计算机
模板
场景
编码器
时序
处理器
算法
序列