摘要
本发明公开了一种四模态对齐数据合成加工的方法、系统和设备,方法包括:通过分别设计精细提示词和简略提示词,实现文本模态数据对图像、视频和音频数据的对齐;再从视频中提取文本、音频和图像数据,将文本与视频对齐、图像与视频对齐以及音频与视频对齐,从而实现以视频为核心的四模态对齐;以视频为核心的四模态对齐后,计算两个单模态之间的余弦相似度,根据所述余弦相似度评估数据对齐效果。本发明在多模态数据对齐的精度、多样性、一致性评估和自动化处理等方面有显著改进,具备广泛的应用前景和技术优势。
技术关键词
视频
文本
音频
数据
生成字幕文件
对齐模块
图像主体
核心
大语言模型
语义
双模态
处理器
关键帧
存储装置
分析模块
程序
索引
系统为您推荐了相关专利信息
营销管理系统
动态邻接矩阵
订单
节点
注意力机制
数据采集芯片
芯子
温压传感器
薄膜压力传感器
电芯
物联网设备
风险
生成设备
识别设备
异常检测方法
数据智能采集方法
隧道病害
结构面产状
指数
监测站
固态断路器
热敏电阻传感器
传感器单元
控制芯片
电流控制系统