视觉语言对齐增强方法、装置、设备及介质

AITNT
正文
推荐专利
视觉语言对齐增强方法、装置、设备及介质
申请号:CN202510727439
申请日期:2025-05-30
公开号:CN120656172A
公开日期:2025-09-16
类型:发明专利
摘要
本发明涉及人工智能领域及医疗健康领域,公开了视觉语言对齐增强方法、装置、设备及介质,该方法包括根据物体图像样本集和文本样本集构建得到图文对样本集;将适配模块和投影头添加至预训练视觉语言模型中的视觉编码器和语言编码器,构建得到初始视觉语言模型;基于图文对样本集和预设的损失计算策略对初始视觉语言模型进行对比学习训练,得到目标视觉语言模型;若接收到用户语音指令,则将用户语音指令转换为文本数据;基于实时采集的当前环境图像、文本数据和目标视觉语言模型获得与文本数据对应的目标物体图像。本发明能够训练得到适配养老场景的目标视觉语言模型,能够提升视觉语言模型在养老场景下的目标识别准确率。
技术关键词
图文 样本 视觉 文本 语言编码器 图像 物体 策略 语义 语音处理单元 数据 处理器 可读存储介质 医疗健康 模型更新 计算机设备 模块 存储器 参数
系统为您推荐了相关专利信息
1
用于确定委托翻译的译员及翻译价格的方法及服务端服务器
模板 格式 翻译语言 人工神经网络 特征提取模型
2
一种应用于高大模板支撑结构的位移预测方法
位移预测方法 高大模板支撑 位移监测系统 监控相机 BiLSTM模型
3
一种供应链碳信用激励方法及其交易平台
数据采集网络 激励方法 滑动时间窗口 项目 交易平台
4
NLP语义提取非结构化文本生成逻辑轴并优化算力方法
非结构化文本 逻辑 语义 语句 基准
5
医学成像中人工智能辅助的轮廓绘制
机器学习模型 医学系统 轮廓 样本 人工智能辅助
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号