摘要
本发明涉及人工智能领域及医疗健康领域,公开了视觉语言对齐增强方法、装置、设备及介质,该方法包括根据物体图像样本集和文本样本集构建得到图文对样本集;将适配模块和投影头添加至预训练视觉语言模型中的视觉编码器和语言编码器,构建得到初始视觉语言模型;基于图文对样本集和预设的损失计算策略对初始视觉语言模型进行对比学习训练,得到目标视觉语言模型;若接收到用户语音指令,则将用户语音指令转换为文本数据;基于实时采集的当前环境图像、文本数据和目标视觉语言模型获得与文本数据对应的目标物体图像。本发明能够训练得到适配养老场景的目标视觉语言模型,能够提升视觉语言模型在养老场景下的目标识别准确率。
技术关键词
图文
样本
视觉
文本
语言编码器
图像
物体
策略
语义
语音处理单元
数据
处理器
可读存储介质
医疗健康
模型更新
计算机设备
模块
存储器
参数
系统为您推荐了相关专利信息
位移预测方法
高大模板支撑
位移监测系统
监控相机
BiLSTM模型
数据采集网络
激励方法
滑动时间窗口
项目
交易平台