一种基于大小模型协同融合的视频智能描述方法、系统和可读存储介质

AITNT
正文
推荐专利
一种基于大小模型协同融合的视频智能描述方法、系统和可读存储介质
申请号:CN202510841555
申请日期:2025-06-23
公开号:CN120823538A
公开日期:2025-10-21
类型:发明专利
摘要
本发明属于人工智能视频分析技术领域,涉及一种基于大小模型协同融合的视频智能描述方法、系统和可读存储介质,包括:从输入的视频中提取关键帧;将视频的视觉特征输入轻量级预训练模型,获得视频的全局特征编码和视频的粗粒度概述;将关键帧输入大模型,生成视频的细粒度行为及交互细节编码;设定大小模型协同融合的提示词,将大小模型协同融合的提示词与全局特征编码、细粒度行为及交互细节编码输入大模型,生成兼具宏观完整性与微观准确性的视频自然语言描述。本发明生成多粒度语义描述内容精度较高,完整性好,确保对视频内容的整体性概括;有效解决了单一模型在概括性与细节保真度之间的权衡矛盾,显著提升语义完整性与场景适应性。
技术关键词
关键帧 预训练模型 自然语言 视觉特征 语义 细粒度特征 人工智能视频 可读存储介质 模块 逻辑 计算机 模板 场景 编码器 时序 处理器 算法 序列
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号