基于多模态信息融合的视频处理方法、装置、设备及介质

正文

推荐专利

申请号：CN202411550989

申请日期：2024-10-31

公开号：CN119580738A

公开日期：2025-03-07

类型：发明专利

摘要

本申请提供一种基于多模态信息融合的视频处理方法、装置、设备及介质，涉及视频处理领域。本申请方法通过大语言模型对视频中的语音文本进行处理，可以准确识别和转录语音信息，将非结构化的语音数据转换为结构化的文本数据，为后续的分析提供了可操作的文本信息。利用视频数据的图像特征和已获得的语音识别文本的文本特征提取图像关键帧，能够从大量的视频帧中筛选出最具代表性和信息量最大的帧，减少冗余信息，同时确保了视觉信息与语音信息的同步性。基于时间对应关系，将图像关键帧和语音识别文本进行对齐融合，输出多模态融合文本，可以更准确地捕捉视频的时序关联和上下文信息，从而提高视频理解的准确性和深度。

技术关键词

语音识别文本多模态信息融合图像特征识别算法视频关键帧提取算法大语言模型身份识别算法数据语音识别算法计算机设备语音识别模块可读存储介质分段申请方法图像缩放

系统为您推荐了相关专利信息

一种基于多模态小样本学习的场景分割方法及系统

场景分割方法语义特征提取多模态实时视频流通道校正

一种面向移动端平台的远程视觉心率测量深度学习方法

人脸视频图像轻量化神经网络人体心率学习方法移动端

一种基于视频的非接触血氧检测方法

血氧检测方法交流特征支持向量回归直流特征饱和度

一种基于大模型RAG架构的文旅数据服务方法及系统

数据服务方法文本处理服务大语言模型数据编码数据生成文档

一种直播场景下的灯光调节方法、设备及存储介质

直播视频数据灯光调节方法球泡灯像素点二维位置信息

基于多模态信息融合的视频处理方法、装置、设备及介质

站点导航

APP 下载