针对视频语言大模型的多视频联合理解系统

AITNT
正文
推荐专利
针对视频语言大模型的多视频联合理解系统
申请号:CN202510598764
申请日期:2025-05-09
公开号:CN120472372A
公开日期:2025-08-12
类型:发明专利
摘要
一种针对视频语言大模型的多视频联合理解系统,包括:视频结构化模块、图融合模块、视觉映射器、视觉编码器和词嵌入层,通过结构化视频表征与图融合机制,避免冗余视觉信息的无效输入,降低模型输入负载,实现数据高效利用;通过跨视频时空信息的整合,有效缓解单视频知识不完整性问题,减少幻觉性回答,提升模型对复杂任务的处理能力,能够应用于多视频问答、多视频内容理解、多视频摘要、跨视频事件分析等多种人工智能应用领域。
技术关键词
视频 理解系统 视觉定位器 文本 关键帧 ID标签 视觉特征 注意力机制 解析器 场景 三元组 多层感知机 跨模态 时序 检测器 关系 语义 模块
系统为您推荐了相关专利信息
1
一种混合搜索方法、装置、设备及存储介质
混合搜索方法 关键词 语句 搜索算法 索引
2
订单配送业务的处理方法及装置、存储介质、电子设备
订单 语义向量 地址转换 数据 日期
3
关于音频信息混淆可逆对抗样本的隐私保护方法、装置
自动语音识别系统 对抗性 隐私保护方法 傅里叶变换函数 掩码矩阵
4
基于意图识别的业务处理方法、装置、电子设备及介质
意图识别模型 界面 文本 编码 前端组件
5
基于特征增强与语言感知属性引导的视觉定位方法
视觉定位方法 语义特征 模态特征 对象 跨模态
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号