多轮实时多模态大模型交互方法、相关装置及存储介质

AITNT
正文
推荐专利
多轮实时多模态大模型交互方法、相关装置及存储介质
申请号:CN202510897925
申请日期:2025-07-01
公开号:CN120407854B
公开日期:2025-11-25
类型:发明专利
摘要
本申请实施例涉及人工智能领域,提供一种多轮实时多模态大模型交互方法、相关装置及存储介质,多轮实时多模态大模型交互方法包括:将第一目标音频转换为文本,得到第一目标任务描述文本;基于第一目标视频确定第一关键帧图像集合;对第一关键帧图像集合中的各个关键帧图像进行图像分割,得到第一关键帧图像集合中各个关键帧图像的图像分割结果,图像分割结果包括多个图像分割区域和对应的区域标签;基于目标多模态大模型处理第一目标任务描述文本和第一关键帧图像集合中的各个关键帧图像的图像分割结果,得到第一输出文本;将第一输出文本转换为语音,得到第一输出音频。本申请能够提高多模态大模型交互的准确率。
技术关键词
关键帧 图像分割 视频帧集合 多模态 交互方法 文本 音频 计算机程序产品 交互装置 解码模块 编码模块 聚类 处理器 语音 标签
系统为您推荐了相关专利信息
1
一种物联网多模态监测数据优化传输方法
优化传输方法 邻域 序列 多模态 冷链运输车
2
基于多模态数据的诊疗交互系统及方法
交互系统 意图识别模型 多模态特征 实时数据采集 非暂态计算机可读介质
3
一种适用于肺隐球菌病患者的辅助阅片系统
辅助阅片 CT切片图像 血管 像素点 序列
4
一种多模态传感离子导电弹性体及其制备方法与应用
离子导电 聚氨酯弹性体 多模态 二甲基甲酰胺 传感
5
一种积液引流抽取设备及其使用方法
微型压力传感器 微型流量传感器 电容式液位传感器 积液 抽取设备
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号