一种融合文字、图像与音频的多模态模型及方法

AITNT
正文
推荐专利
一种融合文字、图像与音频的多模态模型及方法
申请号:CN202411065437
申请日期:2024-08-05
公开号:CN118861988A
公开日期:2024-10-29
类型:发明专利
摘要
本发明提出一种基于多模态信息融合的视频检索方法及系统,属于人工智能设备技术领域,包括:视频帧抽取与编码模块用于获取视频,对视频进行视频帧抽取获得图形序列,对图形序列进行特征编码;音频分离与编码模块用于提取视频的音频部分;文本编码模块用于对视频的描述文件进行编码;对齐模块用于对音频,图像和文字及进行对齐,多模态融合与理解模块用于实现不同模态间的深度交互和信息融合;文字生成模块基于多模态特征进行文字信息的生成,不仅能够高效地融合和处理文字、图像、音频等多元信息,还包含了先进的量化技术以降低模型体积、减少计算资源消耗,同时确保模型性能。
技术关键词
多模态信息融合 视频检索方法 编码模块 多模态特征 音频 序列 动态时间规整 视频帧 对齐模块 文本 图像 编码器 时空注意力机制 权重分配策略 增强型动态
系统为您推荐了相关专利信息
1
基于异构计算的IC器件3D缺陷检测算法
缺陷检测算法 异构计算架构 任务分配策略 注意力 配准算法
2
基于多尺度编解码器的多模态视频序列分割方法
视频序列分割方法 编解码器 融合特征 语义 多尺度特征提取
3
基于儿童语音模态特性感知的语音教育机器人
模式特征向量 教育机器人 语音 细粒度特征 时序特征
4
基于HDMI流的多模态智能语义理解与摘要生成系统及方法
智能语义理解 摘要生成系统 版面结构 光学字符识别 HDMI输入
5
一种预测有机分子吸收光谱的处理方法和装置
光度 编码向量 波长 曲线 有机光伏材料
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号