[第一车市 快讯]2020年11月,科大讯飞iFlyAuto新产品会在广州开场,科大讯飞的多模态交互能力一经介绍就吸引了在场嘉宾的眼球。
2021年3月在上海举行的第四届中国汽车企业创新大会上,科大讯飞智能汽车副总经理赵毅先生参会并做了《科大讯飞汽车座舱多模感知》的主题分享,引发在场专家学者的热烈讨论。
2021年4月,首届上汽零束SOA平台开发者大会在上海隆重举行。科大讯飞在SOA人工智能展区,集中展示了智能座舱多模感知系统demo、车载多语种语音助理及智能音频管理系统硬件三大创新技术产品,引起了与会嘉宾、媒体的广泛关注。
这一系列动作,无不显示着科大讯飞以多模态交互能力为抓手,完善智能驾舱交互解决方案,实现智能汽车赛道超车的战略蓝图。
智能驾舱多模交互方兴未艾
当前,全球汽车产业正面临着百年未有之大变局,5G、大数据、人工智能、云计算等各种科技正在加速重构行业格局,推动汽车从一个“硬件为主”的工业产品,进化成为一个可以自学习、自进化、自成长的个性化智能终端,一个悉心陪伴每位车主的另一种生命体。能够真正为车主更个性化、更智能化、更情感化的服务,会成为未来汽车产品的核心竞争力,这必将带来了一系列新挑战。
从汽车产业链来说,汽车真正做到懂人,且能结合环境精准服务,需要这辆车具备强大的交互和场景实现能力。当前车上的语音助手更多是功能性的,没有太多情感化的表达。面向用户构建对话逻辑,形成汽车的对话风格,需要服务和交互界面的相互结合,需要从交互层面去考虑车的服务和人进行连接的设计。
从消费者层面来说,消费者不再希望车只是一个代步工具,而是一个满足娱乐需求、办公需求的个性化移动空间,同时需要具备“感知”人、“理解”人的能力,从而在行车过程舒适智能的体验。
提升用户体验的核心是做到更精准的感知,机器需要非常精确地理解人的意图,才能够实现更精准的交互,这就需要交互能力的完善和升级。在近五年国内外汽车产业的规划中,可以清晰看到智能驾舱多模态交互已成为重点规划产品。科大讯飞在这方面无疑走在了前列。
科大讯飞实现了“听、说、看、显”全链路技术升级
实现车载多模态交互量产的第一步是提升车载语音的普及度。只有语音交互变成用户的强需求,结合其他模态才有意义。
科大讯飞进入汽车前装市场已经有十年时间。这十年,智能语音一直是科大讯飞智能汽车的一面旗帜,从最初的命令词语音识别系统,再到后来的麦克风阵列降噪技术、AIUI对话式人机交互技术......科大讯飞智能汽车已经逐步构建了包括语音唤醒、语音识别、自然语言理解、语音合成、声纹识别、声源定位等在内的全闭环的汽车智能语音交互核心技术。
在强大的语音能力构成的基石上,科大讯飞多模态人机交互和驾驶安全守护技术解决方案(以下简称讯飞多模态交互解决方案)创新性的加入了视觉的能力:
1、场景服务是实现用户体验个性化的通道,这天然要求车辆具备驾驶者识别的能力。讯飞大规模人脸库训练的红外异质FaceID技术,能够实现活体检测和无感登录,并以此为基础实现个性化服务,让汽车更懂用户,让服务更周到。
2、正如语音和视觉的结合是人与人最重要的交互方式,视觉交互的方式有更好的指向性。车辆进一步升级成为真正的“人工智能”,需要综合使用听觉、视觉感知的技术。科大讯飞汽车级视线追踪技术,让用户注视即可实现唤醒交互,目光所至皆可控制,很好地减少了交互步骤避免了语音交互所带来的问题。
唇音融合语音技术的创新型加入,具备唇音免唤醒、唇音检出、唇音增强三大核心能力,开口说话就能一语直达,就算是轻声细语,也能听清,能够让车内交互更快、更准、更有温度。
同时,屏幕注视感知和人眼位置感知,可以调节车机屏幕亮度,让抬头显示等辅助设备更易用,提升驾驶体验。
3、目前与视线相关的驾驶员监控系统已从法规层面成为刚需:Euro-NCAP要求DMS成为五星评级的必要条件之一,中国目前也在跟进相关标准法规的制定。科大讯飞基于眼睛和嘴巴开闭度的感知技术,能够判断用户疲劳程度;结合头姿估计和实现追踪,能够准确判断视线是否离开路面;针对用户打电话和抽烟等行为,可以实现对应的车辆控制与提醒等。多种信息融合进行,让车辆驾驶更安全。
在多模输出上,讯飞多模态交互解决方案最终会以形象复刻、口型同步、动效展示、氛围灯律动等更具有科技感的方式呈现。
“听、说、看、显”全链路技术升级,构建了完整的多模态体系,能够实现车辆可在上车-行驶-下车的整个用车周期中,对语音、图像、活体等多种信息的融合,更主动、更深入地了解乘客的信息,从而主动对其进行关怀、推送相关的内容/服务,并改变车辆设置,进而带来颠覆性的交互体验。
在未来新十年里,市场全球化、产业智数化、产品科技化、品牌年轻化的新时代特征将加速重构产业价值体系。科大讯飞将努力扮演助推智能汽车行业创新发展的探索者、组织者、引领者,交出智能驾舱交互和车联网系统构建的“讯飞答卷”。