摘要
本发明涉及人工智能技术领域及金融科技和医疗健康领域,公开了文本生成方法、装置、计算机设备及存储介质,其中,通过获取目标音频,利用音频Transformer模型提取所述目标音频的音频表示;获取所述目标音频的提示文本,并利用大语言模型对所述提示文本进行分词处理,生成文本嵌入;对所述音频表示进行下采样,并将其与所述文本嵌入对齐;利用所述大语言模型对对齐后的所述音频表示和所述文本嵌入进行解码,生成所述目标音频的描述文本;从而本发明可以生成更加多样化、准确且真实的音频描述文本。
技术关键词
文本生成方法
音频
大语言模型
融合特征
计算机设备
频谱特征
分词
文本生成装置
策略
可读存储介质
人工智能技术
医疗健康
处理器
解码模块
采样模块
列表
存储器
系统为您推荐了相关专利信息
病毒性肺炎
肺部CT图像
风险预测模型
热力图
风险评估报告
多轮对话
问诊系统
动态知识图谱
大语言模型
处理单元
车牌识别方法
特征融合网络
特征提取网络
号码
融合特征