摘要
本公开提供了基于大模型的布局生成方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型、图像处理等技术领域,可应用于基于人工智能的内容生成等场景。具体实现方案为:通过目标检测模型与语义分割模型提取原始图像的视觉信息;将视觉信息转化为结构化数据,并利用空间关系编码将结构化数据转换为自然语言描述;基于自然语言描述和用户指令,构建多模态Prompt;将构建好的多模态Prompt输入大模型,得到大模型输出的目标对象在原始图像中的布局信息。本方案能提高布局生成的质量和效率。
技术关键词
自然语言
多模态
对象
布局生成方法
语义分割模型
指令
偏差
信息验证
图像分割算法
编码
关系
电子设备
处理器
人工智能技术
计算机程序产品
计算机视觉
系统为您推荐了相关专利信息
交通
场景构建方法
运动轨迹数据
计算机执行指令
对象
记录方法
任务调度算法
上下文语义信息
关键词
会议
虚拟对象
显示控制装置
尺寸
显示控制方法
观察者
对象
分类规则
非暂时性计算机可读介质
机器学习模型
计算机可执行指令
航模电机
模型预测控制策略
多模态
介质
水下无线光通信技术