基于视觉语言模型的请求处理方法、装置、设备及介质

AITNT
正文
推荐专利
基于视觉语言模型的请求处理方法、装置、设备及介质
申请号:CN202510333965
申请日期:2025-03-19
公开号:CN120259425A
公开日期:2025-07-04
类型:发明专利
摘要
本发明涉及计算机技术领域,具体公开一种基于视觉语言模型的请求处理方法、装置、设备及介质,该方法包括:接收服务请求;根据服务内容对车机大屏上显示画面截图,获得图像画面,并将图像画面分割成多个图像块,将服务内容转换为视觉语言模型可处理的文本数据;对视觉语言模型添加交叉熵损失和坐标差损失,并对视觉语言模型进行训练;将文本数据和多个图像块输入至经过训练后的视觉语言模型,输出服务响应,以及通过车机大屏显示服务响应。本方法通过引入交叉熵损失和坐标差损失来训练视觉语言模型VLM,使得VLM能够更好地适应不同的服务内容和图像画面,有效提升了VLM在复杂任务中的理解能力,提高对大屏画面中目标对象识别的准确率。
技术关键词
视觉 图像块 检测损失 画面 车机 文本 坐标转换算法 计算机 图像分割 数据 线框 机器学习算法 可读存储介质 图标 对象识别 存储器 处理器
系统为您推荐了相关专利信息
1
一种基于混合脑机接口的人机交互方法及装置
人机交互方法 脑机接口 支持向量机分类器 空间滤波器 脚本
2
一种轨道扣件弹条断裂视觉检测方法、系统及装置
断裂风险 轨道扣件弹条 特征分析方法 视觉检测方法 语义分割模型
3
对图像进行分类的方法和设备、以及半导体制造工艺的缺陷检查系统
注意力 人工智能模型 缺陷检查系统 掩模 图像嵌入
4
基于多模态动态面部表情的帕金森病辅助诊断方法及系统
动态面部表情 辅助诊断方法 视觉特征提取 多模态 文本
5
一种基于人工智能的学生全素养培育与评估方法和系统
指标 自动语音识别技术 多模态数据融合 视频 指数
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号