摘要
本发明属于人工智能技术领域,涉及一种基于视觉语言模型的超长音视频理解方法、系统和设备,所述方法包括:1)利用微调后的大语言模型对用户问题进行多粒度意图识别,以确定用户问题的询问模式,询问模式包括单图询问模式、音频内容询问模式和视频内容询问模式;2)基于询问模式和用户问题对用户输入的图片、音频和视频进行识别,获得识别内容;3)基于时空提示机制和分层生成机制使用大语言模型对识别内容进行多模态信息融合;4)将用户问题和多模态信息融合结果输入视觉语言模型中,生成用户问题的对应答案。其能够降低计算资源需求、简化系统架构、提升时序信息依赖性以及增强泛化能力,从而有效解决超长音视频理解的技术难题。
技术关键词
多模态信息融合
音视频
大语言模型
视觉
意图识别
视频识别
模式
动态关键帧
模板
音频
时间定位
生成机制
图片
自动语音识别技术
答案
生成用户
强化学习方法
文本特征向量
系统为您推荐了相关专利信息
Kano模型
地理空间信息
视角
社会网络分析
居民
电子冷却设备
冷却控制方法
大语言模型
自然语言
语义
设备控制方法
声纹特征
图像分类模型
视觉
上存储计算机程序