一种基于双层混合专家模型的视频理解方法和装置

AITNT
正文
推荐专利
一种基于双层混合专家模型的视频理解方法和装置
申请号:CN202411728301
申请日期:2024-11-28
公开号:CN119964043B
公开日期:2025-10-10
类型:发明专利
摘要
本发明提供一种基于双层混合专家模型的视频理解方法和装置,包括:将获取的文本描述进行文本扩增,同时生成可学习的文本提示,将文本扩增得到的扩增文本描述与可学习的文本提示进行编码得到文本特征;将视频分成多个视频序列块,将视频与各视频序列块拼接后输入视频编码器进行编码得到视觉特征;每个视频序列块包含同一位置的完整视频信息以及可学习的视觉提示;利用预训练的大语言模型基于视觉特征和文本特征分别生成视觉标记和文本标记;使用双层混合专家模型学习视觉标记和文本标记得到视频内容表述。本发明通过结合文本描述和视觉特征,以及使用预训练的大语言模型和双层混合专家模型,能够更准确地理解视频内容。
技术关键词
视频理解方法 视觉特征 视频编码器 标记 序列 非暂态计算机可读存储介质 视频块 变压器模型 采样器 文本编码器 处理器 数据获取模块 计算机程序产品 编码模块
系统为您推荐了相关专利信息
1
一种基于训练图像反馈识别的宠物狗行为纠正方法
纠正方法 特征值 多尺度卷积神经网络 构建机器学习模型 流形学习算法
2
一种基于深度学习的视频流采集方法
关键帧 重构视频序列 颜色直方图 视频流 数据
3
用于内窥镜的散斑图像恢复装置及方法
子孔径图像 散斑图像 微透镜阵列 图像恢复装置 幅值
4
充气式异形构造及其制作方法
膜片 数控机床控制模块 柔性可弯折 标记 三维模型
5
基于猪只行为的猪只健康状况分析方法与系统
健康状况分析方法 潜在健康风险 时序关联分析 特征提取算法 视频流
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号