基于视觉语言模型的超长音视频理解方法、系统和设备

正文

推荐专利

申请号：CN202510444847

申请日期：2025-04-10

公开号：CN120336483A

公开日期：2025-07-18

类型：发明专利

摘要

本发明属于人工智能技术领域，涉及一种基于视觉语言模型的超长音视频理解方法、系统和设备，所述方法包括：1)利用微调后的大语言模型对用户问题进行多粒度意图识别，以确定用户问题的询问模式，询问模式包括单图询问模式、音频内容询问模式和视频内容询问模式；2)基于询问模式和用户问题对用户输入的图片、音频和视频进行识别，获得识别内容；3)基于时空提示机制和分层生成机制使用大语言模型对识别内容进行多模态信息融合；4)将用户问题和多模态信息融合结果输入视觉语言模型中，生成用户问题的对应答案。其能够降低计算资源需求、简化系统架构、提升时序信息依赖性以及增强泛化能力，从而有效解决超长音视频理解的技术难题。

技术关键词

多模态信息融合音视频大语言模型视觉意图识别视频识别模式动态关键帧模板音频时间定位生成机制图片自动语音识别技术答案生成用户强化学习方法文本特征向量

系统为您推荐了相关专利信息

一种基于大语言模型的信贷调查报告生成方法及系统

语音大语言模型关键词生成方法风险

一种基于多元主体认知模型的遗产阐释体系优化方法

Kano模型地理空间信息视角社会网络分析居民

基于大语言模型的电子冷却控制方法和装置、电子设备

电子冷却设备冷却控制方法大语言模型自然语言语义

一种设备控制方法、装置、电子设备和存储介质

设备控制方法声纹特征图像分类模型视觉上存储计算机程序

一种基于层级递减KV缓存压缩的级联投机推理方法及系统

级联中间层推理方法推理架构大语言模型

基于视觉语言模型的超长音视频理解方法、系统和设备

站点导航

APP 下载