一种融合文字、图像与音频的多模态模型及方法

正文

推荐专利

申请号：CN202411065437

申请日期：2024-08-05

公开号：CN118861988A

公开日期：2024-10-29

类型：发明专利

摘要

本发明提出一种基于多模态信息融合的视频检索方法及系统，属于人工智能设备技术领域，包括：视频帧抽取与编码模块用于获取视频，对视频进行视频帧抽取获得图形序列，对图形序列进行特征编码；音频分离与编码模块用于提取视频的音频部分；文本编码模块用于对视频的描述文件进行编码；对齐模块用于对音频，图像和文字及进行对齐，多模态融合与理解模块用于实现不同模态间的深度交互和信息融合；文字生成模块基于多模态特征进行文字信息的生成，不仅能够高效地融合和处理文字、图像、音频等多元信息，还包含了先进的量化技术以降低模型体积、减少计算资源消耗，同时确保模型性能。

技术关键词

多模态信息融合视频检索方法编码模块多模态特征音频序列动态时间规整视频帧对齐模块文本图像编码器时空注意力机制权重分配策略增强型动态

系统为您推荐了相关专利信息

基于异构计算的IC器件3D缺陷检测算法

缺陷检测算法异构计算架构任务分配策略注意力配准算法

基于多尺度编解码器的多模态视频序列分割方法

视频序列分割方法编解码器融合特征语义多尺度特征提取

基于儿童语音模态特性感知的语音教育机器人

模式特征向量教育机器人语音细粒度特征时序特征

基于HDMI流的多模态智能语义理解与摘要生成系统及方法

智能语义理解摘要生成系统版面结构光学字符识别 HDMI输入

一种预测有机分子吸收光谱的处理方法和装置

光度编码向量波长曲线有机光伏材料

一种融合文字、图像与音频的多模态模型及方法

站点导航

APP 下载