基于多模态信息融合的视频处理方法、装置、设备及介质

AITNT
正文
推荐专利
基于多模态信息融合的视频处理方法、装置、设备及介质
申请号:CN202411550989
申请日期:2024-10-31
公开号:CN119580738A
公开日期:2025-03-07
类型:发明专利
摘要
本申请提供一种基于多模态信息融合的视频处理方法、装置、设备及介质,涉及视频处理领域。本申请方法通过大语言模型对视频中的语音文本进行处理,可以准确识别和转录语音信息,将非结构化的语音数据转换为结构化的文本数据,为后续的分析提供了可操作的文本信息。利用视频数据的图像特征和已获得的语音识别文本的文本特征提取图像关键帧,能够从大量的视频帧中筛选出最具代表性和信息量最大的帧,减少冗余信息,同时确保了视觉信息与语音信息的同步性。基于时间对应关系,将图像关键帧和语音识别文本进行对齐融合,输出多模态融合文本,可以更准确地捕捉视频的时序关联和上下文信息,从而提高视频理解的准确性和深度。
技术关键词
语音识别文本 多模态信息融合 图像特征识别算法 视频 关键帧提取算法 大语言模型 身份识别算法 数据 语音识别算法 计算机设备 语音识别模块 可读存储介质 分段 申请方法 图像缩放
系统为您推荐了相关专利信息
1
一种基于多模态小样本学习的场景分割方法及系统
场景分割方法 语义特征提取 多模态 实时视频流 通道校正
2
一种面向移动端平台的远程视觉心率测量深度学习方法
人脸视频图像 轻量化神经网络 人体心率 学习方法 移动端
3
一种基于视频的非接触血氧检测方法
血氧检测方法 交流特征 支持向量回归 直流特征 饱和度
4
一种基于大模型RAG架构的文旅数据服务方法及系统
数据服务方法 文本处理服务 大语言模型 数据编码 数据生成文档
5
一种直播场景下的灯光调节方法、设备及存储介质
直播视频数据 灯光调节方法 球泡灯 像素点 二维位置信息
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号