基于跨模态融合的任务指令生成方法、装置、设备及介质

AITNT
正文
推荐专利
基于跨模态融合的任务指令生成方法、装置、设备及介质
申请号:CN202511185261
申请日期:2025-08-22
公开号:CN120932052A
公开日期:2025-11-11
类型:发明专利
摘要
本发明涉及人工智能技术领域,可应用于金融科技及医疗健康等业务场景中,公开了一种基于跨模态融合的任务指令生成方法、装置、设备及介质,包括:对输入视频进行解码与降噪生成帧序列,基于帧间相似度识别多帧关键帧;提取关键帧的空间特征形成序列,结合时间特征生成视频时空特征;对输入文本执行语义预处理获得文本语义特征,采集动作传感器信号得到动作特征;将视频时空特征、文本语义特征和动作特征进行融合生成融合特征;基于融合特征生成感知向量并输出任务指令。本发明通过关键帧提取与时空融合机制,结合文本语义特征和动作特征实现多模态融合,利用视频的时序信息和多源感知输入,提高感知表达能力和任务指令生成的准确性。
技术关键词
指令生成方法 视频时空特征 跨模态 关键帧 动作特征 融合特征 语义特征 动作传感器 序列 文本 视频场景理解 生成程序 指令生成装置 生成帧 注意力机制 性能指标数据 特征提取模块 长短期记忆网络 高效视频编码标准
系统为您推荐了相关专利信息
1
基于AI大模型的智能设备接入系统及接入方法
智能设备接入系统 智能设备接入方法 环境传感器数据 封装模块 协议
2
基于跨模态交互和全尺度聚合的RGB-T显著性目标检测方法
跨模态 特征提取网络 显著性检测方法 红外图像特征 RGB特征
3
一种智驾数据挖掘方法及其装置、计算机程序产品
文本特征向量 图像特征向量 跨模态 数据挖掘方法 数据挖掘装置
4
基于自适应特征聚合的跨模态行人重识别方法
可见光图像 重识别方法 分类器 细粒度特征 ResNet网络
5
基于多关系深度检索文本匹配的人名消歧方法
语义向量 地理信息数据 企业 文本 注意力
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号