摘要
本发明涉及人工智能技术领域,可应用于金融科技及医疗健康等业务场景中,公开了一种基于跨模态融合的任务指令生成方法、装置、设备及介质,包括:对输入视频进行解码与降噪生成帧序列,基于帧间相似度识别多帧关键帧;提取关键帧的空间特征形成序列,结合时间特征生成视频时空特征;对输入文本执行语义预处理获得文本语义特征,采集动作传感器信号得到动作特征;将视频时空特征、文本语义特征和动作特征进行融合生成融合特征;基于融合特征生成感知向量并输出任务指令。本发明通过关键帧提取与时空融合机制,结合文本语义特征和动作特征实现多模态融合,利用视频的时序信息和多源感知输入,提高感知表达能力和任务指令生成的准确性。
技术关键词
指令生成方法
视频时空特征
跨模态
关键帧
动作特征
融合特征
语义特征
动作传感器
序列
文本
视频场景理解
生成程序
指令生成装置
生成帧
注意力机制
性能指标数据
特征提取模块
长短期记忆网络
高效视频编码标准
系统为您推荐了相关专利信息
智能设备接入系统
智能设备接入方法
环境传感器数据
封装模块
协议
跨模态
特征提取网络
显著性检测方法
红外图像特征
RGB特征
文本特征向量
图像特征向量
跨模态
数据挖掘方法
数据挖掘装置
可见光图像
重识别方法
分类器
细粒度特征
ResNet网络