多模态融合交互大模型

1、希望解决的主要技术问题: 多模态融合交互大模型通过多种硬件设备(包括话筒、眼动追踪仪、手势传感器等)采集多模态数据(包括声音、文本、明动、手势等),通过多模态大模型实现复杂车载环境下的用户意图理解与响应。 2、需求提出背景及主要应用领域方向: 在面向复杂环境无人车操控方面,多模态人机交互技术支持语音、按键、触屏、手势、视线等多种交互方式,通过多种交耳方式融合,能多维提取用户交互意图,利用各通道优势互补,弥补单通道识别准确率和交互效率不高的问题,也能平衡感官通道之间的使用负担,减轻无人车操控人员的认知负担,使其能够投入更多注意力到决策中。可部署在有人车或单人便携使用,具备对无人车通用化操控能力,有较强的实用性和推广性。 3、技术难点: (1)多模态融合交互的准确性需达到 95%以上; (2)具备声纹识别功能,识别准确率达到 90%以上; (2)需具备对用户自然交互意图的分析与理解能力; (3)适配国产化智能计算平台,完成本地化部署。 4、对主要技术指标、成本、周期等有关要求: 主要技术指标: ①具备语义理解功能,可对用户视觉注意力区域的视频图像信息进行语义分析,理解视觉场景的结构化关系; ②具备知识库检索与更新功能,可对文档、规则、协议、操作习惯等知识库进行检索,并可根据用户输入,动态更新知识库; ③具备自然语音识别和结构化语音指令识别功能,其中自然语音识别准确率≥90%,结构化指令识别准确率≥95%,语音识别延时≤0.5秒; ④具备语音合成功能,支持将文字信息转换为自然流畅的语音输出,语音合成模型支持以汉语为主并混合英语短语的跨语言合成,支持合成音色、语速设置。 ⑤具备多模态融合交互功能,实现语音、手势、眼动、头动等多模态交互指令的融合,生成格式化的指令或文本消息; ⑥具有用户意图理解功能,可根据声音、文本、眼动、手势等交互输入推理用户操作意图,理解用户下达的模糊指令,生成格式化的指令或文本消息; ⑦具备操作推荐功能,为用户提供多样化可选操作推荐,简化用户操作流程; ⑧用户多模态融合交互意图识别准确率≥95%; ⑨ 多模态融合交互意图识别延时≤1秒。

智慧园区大数据的云计算、分析与应用平台开发

开发平台模块包含数据采集单元、任务管理模块、 任 务AI 筛分模块、云计算处理系统

寻找一种绿色环保原液着色涤纶丝

实现颜料分散技术的突破,解决传统色母粒分散性差,从而 导致纤维强度下降、色点的问题。

寻找人工智能相关新技术

需适配贵州150Eflops算力规模目标,整合华为、腾讯等本土智算资源

寻求AI视频制作数字人技术集成的研发合作

自动适配抖音、快手等平台的节奏与字幕样式偏好,短视频批量生产工具应支持日均50条视频量产

人工智能算法和电网运行装置

智能决策算法方面:需构建时空预测模型;装置智能化技术需求:部署光纤振动传感+AI分析系统,建立电网全要素数字孪生体

构建未来智能化学实验室

探索AI在化学实验设计、执行、分析或管理中的创新应用,推动实验室向更高效、安全、可持续的方向发展。

沿沪宁光电行业资源对接需求

现需要对接沿沪宁光电行业企业及高校资源进行技术合作

寻找热成像与智能机器人的合作场景

为公司业务发展,寻找沿沪宁地区热成像与智能机器人的合作场景

环境监测融合测绘

需融合卫星遥感、无人机航测、地面传感器等多维度数据,提升环境监测的全面性与实时性

基于儿童精准给药关键技术攻关及其新药开发

开发能够精确控制剂量的技术,同时结合新型剂型开发、生物标志物检测等药物输送技术,提高药物的靶向性和疗效。建立结合传统中医药理论与现代科学技术儿童中药研发体系,同时以儿童疾病治疗为导向,依托人工智能、信息学以及网络药理学研发基础,进行产学研转化一体化布局。

AI智能就业零工就业服务平台研发

采用垂类大模型(如零工推荐算法系统)缩短匹配周期