基于视觉语言模型的超长音视频理解方法、系统和设备

AITNT
正文
推荐专利
基于视觉语言模型的超长音视频理解方法、系统和设备
申请号:CN202510444847
申请日期:2025-04-10
公开号:CN120336483A
公开日期:2025-07-18
类型:发明专利
摘要
本发明属于人工智能技术领域,涉及一种基于视觉语言模型的超长音视频理解方法、系统和设备,所述方法包括:1)利用微调后的大语言模型对用户问题进行多粒度意图识别,以确定用户问题的询问模式,询问模式包括单图询问模式、音频内容询问模式和视频内容询问模式;2)基于询问模式和用户问题对用户输入的图片、音频和视频进行识别,获得识别内容;3)基于时空提示机制和分层生成机制使用大语言模型对识别内容进行多模态信息融合;4)将用户问题和多模态信息融合结果输入视觉语言模型中,生成用户问题的对应答案。其能够降低计算资源需求、简化系统架构、提升时序信息依赖性以及增强泛化能力,从而有效解决超长音视频理解的技术难题。
技术关键词
多模态信息融合 音视频 大语言模型 视觉 意图识别 视频识别 模式 动态关键帧 模板 音频 时间定位 生成机制 图片 自动语音识别技术 答案 生成用户 强化学习方法 文本特征向量
系统为您推荐了相关专利信息
1
一种基于大语言模型的信贷调查报告生成方法及系统
语音 大语言模型 关键词 生成方法 风险
2
一种基于多元主体认知模型的遗产阐释体系优化方法
Kano模型 地理空间信息 视角 社会网络分析 居民
3
基于大语言模型的电子冷却控制方法和装置、电子设备
电子冷却设备 冷却控制方法 大语言模型 自然语言 语义
4
一种设备控制方法、装置、电子设备和存储介质
设备控制方法 声纹特征 图像分类模型 视觉 上存储计算机程序
5
一种基于层级递减KV缓存压缩的级联投机推理方法及系统
级联 中间层 推理方法 推理架构 大语言模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号