摘要
本申请实施例涉及人工智能领域,提供一种多轮实时多模态大模型交互方法、相关装置及存储介质,多轮实时多模态大模型交互方法包括:将第一目标音频转换为文本,得到第一目标任务描述文本;基于第一目标视频确定第一关键帧图像集合;对第一关键帧图像集合中的各个关键帧图像进行图像分割,得到第一关键帧图像集合中各个关键帧图像的图像分割结果,图像分割结果包括多个图像分割区域和对应的区域标签;基于目标多模态大模型处理第一目标任务描述文本和第一关键帧图像集合中的各个关键帧图像的图像分割结果,得到第一输出文本;将第一输出文本转换为语音,得到第一输出音频。本申请能够提高多模态大模型交互的准确率。
技术关键词
关键帧
图像分割
视频帧集合
多模态
交互方法
文本
音频
计算机程序产品
交互装置
解码模块
编码模块
聚类
处理器
语音
标签
系统为您推荐了相关专利信息
交互系统
意图识别模型
多模态特征
实时数据采集
非暂态计算机可读介质
离子导电
聚氨酯弹性体
多模态
二甲基甲酰胺
传感
微型压力传感器
微型流量传感器
电容式液位传感器
积液
抽取设备