摘要
本公开提供了一种交互方法、装置、电子设备及存储介质,涉及人工智能技术领域,具体为计算机视觉、深度学习、大模型等技术领域,可应用于数字人、基于人工智能的内容等生成场景。方案为:接收用户问题,并根据用户问题生成对应的应答语音;获取视频素材中的多个候选交互时机;其中,候选交互时机下目标对象在视频素材对应的音频内容中语义停顿;根据用户问题的接收时间,从多个候选交互时机中确定目标交互时机;响应于到达目标交互时机,播报应答语音,并暂停播放视频素材和音频内容,同时播放与应答语音适配的目标交互视频片段。
技术关键词
交互视频
语音
对象
语义
音频
交互方法
时间差
电子设备
视频帧
文本
人工智能技术
生成场景
计算机程序产品
意图识别
交互装置
计算机视觉
处理器通信
系统为您推荐了相关专利信息
强化学习模型
控制策略
视觉特征
优化训练数据
对象
载人机械
动态障碍物
静态障碍物
地图模型
调控方法
数据共享管理方法
序列
生成动态密钥
数据完整性验证
二级结构预测