摘要
本申请提供一种基于图像和文本的推理方法、装置、计算机设备及存储介质,应用于智慧医疗和金融领域,方法包括:接收客户端输入的包含图像和文本的问题数据,将问题数据输入至预设的推理模型;推理模型根据问题数据进行推理以生成推理链,其中,推理链包括文本推理数据和边界框坐标数据;推理模型根据文本推理数据生成目标答案。本申请通过推理模型生成包含有文本推理数据和边界框坐标数据的推理链,实现问题和图像的协同思考,提高推理链和视觉输入的关联性,在需要结合图像内容进行逻辑推理的场景中,能更准确得知推理过程和推理答案,提高推理的真实可靠性和准确性;且推理模型在推理过程中无需依赖提示工程或辅助模块,提高推理模型的适用性。
技术关键词
文本
数据
坐标
推理方法
推理平台
图像
计算机设备
答案
训练集
客户端
推理装置
处理器
存储器
算法
程序
指令
金融
格式
视觉
场景
系统为您推荐了相关专利信息
摄像组件
特征提取模块
光源系统
图像采集模块
像素点
流量开关
冷却水系统
校验方法
工况参数
机器学习算法分析
电网协调运行方法
光储微电网
新能源储能技术
充放电功率
变异策略
在线状态监测方法
水轮发电机组
非线性特征
MEMS传感器阵列
卷积特征提取
智能家居网络
负载均衡方法
遗传算法
流量预测模型
链路