一种多模态掩码视频描述模型
站点导航
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI专利库
AI需求对接
APP 下载
iOS 下载
安卓下载
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
清空
确定
AITNT
正文
推荐专利
一种多模态掩码视频描述模型
申请号:
CN202510723186
申请日期:
2025-05-30
公开号:
CN120751161A
公开日期:
2025-10-03
类型:
发明专利
摘要
本发明公开了一种多模态掩码视频描述模型。包括预处理模块、多模态融合编码模块和多模态融合解码模块;本发明的模型融合了包含丰富语义关联信息的音频模态和掩码视频图像模态,本发明通过引入掩码机制来随机屏蔽掉输入的视频图像标记块,将它和音频图谱送入统一的多模态编码器用来增强图像的语义信息。
技术关键词
补丁
多模态
编码模块
标记
视频
语义
解码模块
归一化模块
多层感知器
注意力
序列
自然语言
掩码技术
融合策略
音频特征
语音特征
图像块
沪ICP备2023015588号