摘要
本发明涉及人工智能技术领域,可应用于智慧医疗和金融领域,公开了一种具身智能体的行为决策优化方法、装置、设备及介质,包括:根据图像构建场景图,采用图神经网络对场景图进行处理;将文本转化为语义图,采用图神经网络对语义图进行处理;将场景图和语义图进行融合,获得视觉语言联合图,采用联合图神经网络对视觉语言联合图进行处理;对多模态信息进行分层融合,根据融合后的特征指导具身智能体的行为决策。通过基于图结构进行视觉特征和语言特征的学习,可更深入地理解图像和语言中的语义信息,把握物体之间的空间关系和语义关联,精准构建物体之间的空间关系,并更好地解析文本中的语法结构和语义关系,更准确地理解任务指令。
技术关键词
决策优化方法
语义
构建知识图谱
节点
多模态特征
场景
物体
多模态注意力
视觉识别方法
视觉特征
文本
分层
触觉特征
关系
可读存储介质
图像
人工智能技术
语法结构
系统为您推荐了相关专利信息
分布式网络架构
网络拓扑结构
通信链路
数据调度策略
异构
模型提取方法
实体间关系
知识图谱构建
资源
模型提取技术
动态监测方法
骨架姿态
高维特征向量
监控平台
深度图
生命体征状态
生命体征信息
预测预警方法
变化趋势预测
DBN模型