摘要
本发明涉及计算机技术领域,具体公开一种基于视觉语言模型的请求处理方法、装置、设备及介质,该方法包括:接收服务请求;根据服务内容对车机大屏上显示画面截图,获得图像画面,并将图像画面分割成多个图像块,将服务内容转换为视觉语言模型可处理的文本数据;对视觉语言模型添加交叉熵损失和坐标差损失,并对视觉语言模型进行训练;将文本数据和多个图像块输入至经过训练后的视觉语言模型,输出服务响应,以及通过车机大屏显示服务响应。本方法通过引入交叉熵损失和坐标差损失来训练视觉语言模型VLM,使得VLM能够更好地适应不同的服务内容和图像画面,有效提升了VLM在复杂任务中的理解能力,提高对大屏画面中目标对象识别的准确率。
技术关键词
视觉
图像块
检测损失
画面
车机
文本
坐标转换算法
计算机
图像分割
数据
线框
机器学习算法
可读存储介质
图标
对象识别
存储器
处理器
系统为您推荐了相关专利信息
人机交互方法
脑机接口
支持向量机分类器
空间滤波器
脚本
断裂风险
轨道扣件弹条
特征分析方法
视觉检测方法
语义分割模型
注意力
人工智能模型
缺陷检查系统
掩模
图像嵌入
动态面部表情
辅助诊断方法
视觉特征提取
多模态
文本
指标
自动语音识别技术
多模态数据融合
视频
指数