摘要
本申请公开了一种基于截图的视觉语言模型交互方法、设备及介质,涉及多模态大模型技术领域,方法包括:基于预设的截图目录,对截图目录的目录时间戳进行时间戳遍历分析,确定用户当前截图数据;对用户当前截图数据进行分析模型推荐评估,以得到优选分析模型;根据优选分析模型,通过调用函数配置,确定优选分析模型的调用函数;基于调用函数,将用户当前截图输入优选分析模型,得到文本分析数据;获取用户指令数据,并对用户指令数据和文本分析数据进行综合语义分析,以得到截图分析结果。本申请通过上述方法解决了用户截图图像信息搜索操作流程繁琐的技术问题。
技术关键词
交互方法
综合语义
展示界面
数据
目录
文本
视觉
计算机可执行指令
参数
计算机存储介质
交互设备
周期性
处理器通信
意图
多模态
图片
存储器
排版
系统为您推荐了相关专利信息
工商管理教学
动态更新方法
案例库
生成对抗网络
文本生成器
自动防护系统
飞行状态参数
编队构型
无人机编队
网络
自然灾害预测
自然灾害预警
地表特征
机器学习算法
卫星影像数据
风险监测方法
风险评估模型
逻辑回归模型
历史运行数据
设备故障记录
光通信装置
节点特征
融合特征
多头注意力机制
流量预测模型