视觉语言对齐增强方法、装置、设备及介质

正文

推荐专利

视觉语言对齐增强方法、装置、设备及介质

申请号：CN202510727439

申请日期：2025-05-30

公开号：CN120656172A

公开日期：2025-09-16

类型：发明专利

摘要

本发明涉及人工智能领域及医疗健康领域，公开了视觉语言对齐增强方法、装置、设备及介质，该方法包括根据物体图像样本集和文本样本集构建得到图文对样本集；将适配模块和投影头添加至预训练视觉语言模型中的视觉编码器和语言编码器，构建得到初始视觉语言模型；基于图文对样本集和预设的损失计算策略对初始视觉语言模型进行对比学习训练，得到目标视觉语言模型；若接收到用户语音指令，则将用户语音指令转换为文本数据；基于实时采集的当前环境图像、文本数据和目标视觉语言模型获得与文本数据对应的目标物体图像。本发明能够训练得到适配养老场景的目标视觉语言模型，能够提升视觉语言模型在养老场景下的目标识别准确率。

技术关键词

图文样本视觉文本语言编码器图像物体策略语义语音处理单元数据处理器可读存储介质医疗健康模型更新计算机设备模块存储器参数

系统为您推荐了相关专利信息

用于确定委托翻译的译员及翻译价格的方法及服务端服务器

模板格式翻译语言人工神经网络特征提取模型

一种应用于高大模板支撑结构的位移预测方法

位移预测方法高大模板支撑位移监测系统监控相机 BiLSTM模型

一种供应链碳信用激励方法及其交易平台

数据采集网络激励方法滑动时间窗口项目交易平台

NLP语义提取非结构化文本生成逻辑轴并优化算力方法

非结构化文本逻辑语义语句基准

医学成像中人工智能辅助的轮廓绘制

机器学习模型医学系统轮廓样本人工智能辅助

视觉语言对齐增强方法、装置、设备及介质

站点导航

APP 下载