摘要
本申请公开了一种图像描述方法、装置、设备及计算机可读存储介质,本申请涉及人工智能技术领域,该方法包括:基于预设的待描述特征对原始图像数据进行描述,得到初始描述文本,其中,初始描述文本表征所述原始图像数据中待描述特征对应的描述信息;从预设的五感法维度上对初始描述文本进行语义增强处理,得到增强描述文本,其中,五感法维度包括视觉维度、触觉维度、听觉维度、味觉维度和嗅觉维度;基于初始描述文本和增强描述文本生成原始图像数据的综合描述信息。本申请能够提升多模态大模型在跨模态生成任务中的性能。
技术关键词
原始图像数据
文本
语义
可读存储介质
自然语言理解
图文
听觉
大语言模型
人工智能技术
指令
计算机
视觉
处理器
关系
多模态
基础
存储器
系统为您推荐了相关专利信息
刀具路径
多轴数控铣床
自动编程系统
后处理模块
关联关系分析
定位方法
短时傅里叶变换
关键帧
计算机可读指令
教学
轮式机器人
动态负载均衡方法
QoS指标
动态负载均衡装置
实时通信