基于视觉语言模型的请求处理方法、装置、设备及介质

正文

推荐专利

申请号：CN202510333965

申请日期：2025-03-19

公开号：CN120259425A

公开日期：2025-07-04

类型：发明专利

摘要

本发明涉及计算机技术领域，具体公开一种基于视觉语言模型的请求处理方法、装置、设备及介质，该方法包括：接收服务请求；根据服务内容对车机大屏上显示画面截图，获得图像画面，并将图像画面分割成多个图像块，将服务内容转换为视觉语言模型可处理的文本数据；对视觉语言模型添加交叉熵损失和坐标差损失，并对视觉语言模型进行训练；将文本数据和多个图像块输入至经过训练后的视觉语言模型，输出服务响应，以及通过车机大屏显示服务响应。本方法通过引入交叉熵损失和坐标差损失来训练视觉语言模型VLM，使得VLM能够更好地适应不同的服务内容和图像画面，有效提升了VLM在复杂任务中的理解能力，提高对大屏画面中目标对象识别的准确率。

技术关键词

视觉图像块检测损失画面车机文本坐标转换算法计算机图像分割数据线框机器学习算法可读存储介质图标对象识别存储器处理器

系统为您推荐了相关专利信息

一种基于混合脑机接口的人机交互方法及装置

人机交互方法脑机接口支持向量机分类器空间滤波器脚本

一种轨道扣件弹条断裂视觉检测方法、系统及装置

断裂风险轨道扣件弹条特征分析方法视觉检测方法语义分割模型

对图像进行分类的方法和设备、以及半导体制造工艺的缺陷检查系统

注意力人工智能模型缺陷检查系统掩模图像嵌入

基于多模态动态面部表情的帕金森病辅助诊断方法及系统

动态面部表情辅助诊断方法视觉特征提取多模态文本

一种基于人工智能的学生全素养培育与评估方法和系统

指标自动语音识别技术多模态数据融合视频指数

基于视觉语言模型的请求处理方法、装置、设备及介质

站点导航

APP 下载