基于跨模态融合的任务指令生成方法、装置、设备及介质

正文

推荐专利

申请号：CN202511185261

申请日期：2025-08-22

公开号：CN120932052A

公开日期：2025-11-11

类型：发明专利

摘要

本发明涉及人工智能技术领域，可应用于金融科技及医疗健康等业务场景中，公开了一种基于跨模态融合的任务指令生成方法、装置、设备及介质，包括：对输入视频进行解码与降噪生成帧序列，基于帧间相似度识别多帧关键帧；提取关键帧的空间特征形成序列，结合时间特征生成视频时空特征；对输入文本执行语义预处理获得文本语义特征，采集动作传感器信号得到动作特征；将视频时空特征、文本语义特征和动作特征进行融合生成融合特征；基于融合特征生成感知向量并输出任务指令。本发明通过关键帧提取与时空融合机制，结合文本语义特征和动作特征实现多模态融合，利用视频的时序信息和多源感知输入，提高感知表达能力和任务指令生成的准确性。

技术关键词

指令生成方法视频时空特征跨模态关键帧动作特征融合特征语义特征动作传感器序列文本视频场景理解生成程序指令生成装置生成帧注意力机制性能指标数据特征提取模块长短期记忆网络高效视频编码标准

系统为您推荐了相关专利信息

基于AI大模型的智能设备接入系统及接入方法

智能设备接入系统智能设备接入方法环境传感器数据封装模块协议

基于跨模态交互和全尺度聚合的RGB-T显著性目标检测方法

跨模态特征提取网络显著性检测方法红外图像特征 RGB特征

一种智驾数据挖掘方法及其装置、计算机程序产品

文本特征向量图像特征向量跨模态数据挖掘方法数据挖掘装置

基于自适应特征聚合的跨模态行人重识别方法

可见光图像重识别方法分类器细粒度特征 ResNet网络

基于多关系深度检索文本匹配的人名消歧方法

语义向量地理信息数据企业文本注意力

基于跨模态融合的任务指令生成方法、装置、设备及介质

站点导航

APP 下载