上海汽车报电子报

2019年10月20星期日
国内统一刊号:CN31-0035

上海汽车报市场动态 动口不动手 语音交互成主流

按日期检索

12 2017
3
4

上海汽车报

电子报刊阅读器
放大 缩小 默认

动口不动手 语音交互成主流

□ 本报记者 甘文嘉

从最开始的按键到触屏,再到语音指令、手势控制、人脸识别等,汽车人机交互的形式正在不断丰富,多种交互技术并行发展,但最主流的还是语音交互。

打开了一扇窗

最近,上汽MG HECTOR在印度热得有些过火。3个月内,3.1万张定金订单产生,7000辆新车交付,产品供不应求。据分析,MG HECTOR热销的一个重要原因,是其支持印度英语的语音控制i-Smart系统给年轻消费者带来互联网体验。

有这么一个视频,一位驾驶员想通过车载系统的语音拨打电话,但由于略带口音而屡屡失败,最终气得破口大骂。而在印度,你操着标准的英语说“Open the sunroof”(打开天窗)时,系统却毫无响应,当印度人用“印式英语”说出指令后,汽车马上“听懂”,缓缓打开了天窗。

为了这款系统顺利落地,上汽选择与Nuance中国(10月1日起已改名为Cerence中国)合作,利用深度神经网络和机器学习,开发出了能听懂印度口音英语的汽车。

“你好,斑马”第一款互联网汽车上汽荣威RX5唤醒词开启了汽车语音交互方式。随后,“小威,小威。你好,博越。你好,小狮子。你好,奔驰……”共同推开了汽车语音交互的大门。

由于按键、触屏在车载环境下存在潜在安全隐患,因此语音这一天然适应车载环境的交互方式正变得越来越主流。语音交互成为智能汽车的标配,它具有快速、便捷、直接等特点,确保驾驶员的注意力集中在驾驶上。

目前,包括吉利GKUI、比亚迪DiLink、长安In-Call、宝马iDrive、别克eConnect和背后的斑马智行、腾讯车联、小度车载OS,以及更上游的语音方案供应商科大讯飞、Cerence等均在车载语音交互领域进行探索和布局。

微信车载版来了!全语音交互,不看屏幕也能发消息;免唤醒功能、全双工语音交互已经上车;除基本功能(开关天窗、空调、导航等)外,语音交互还包括吃饭及购物地点推荐、讲笑话等。

目前,语音识别技术在密闭空间的准确率已大幅提高,可以流畅无误地完成驾驶场景中的交互需求。另外,混合语音技术、硬件的发展使得语音识别技术能够以高性价比的方式在汽车平台上实现,达到性能与成本的平衡。从功能实现来看,语音交互技术目前主要支持地图导航、音乐播放、控制汽车部件、车家互联等,它们大多属于娱乐或生活功能。

走向多模交互

传统的车机语音都是预设的声音,你最多可以选择男声或女声。最新上市的荣威RX5 MAX搭载斑马智行MARS,其引入了由Cerence提供的全球首发车载语音克隆技术,可自定义汽车助理的声音,为用户提供前所未有的个性化TTS(语音合成)体验。由用户自己录制声音,经过云端处理后可输出为你的车机语音声音,你可以用这项技术让你的爱人为你导航,可以让你的爱豆(idol)在车上陪你说话,让AI语音变得很温暖。

一款好的车机语音对汽车而言,显得尤为重要。那什么样的车机语音是好的?Cerence中国创始人蒯文瑞给出了他的答案:好的车机应该像空气一样,想得到、用得上、离不开。从简单的问答式语音交互,再到基于场景的智能交互,最终迈向多模态交互,即通过语音、触觉、手势、情感和视线等方面的创新集成在一起,使人在车内体验到更愉悦、更安全、获取更多信息和更丰富的娱乐。就像人和人之间面对面交流时会以语言为主,语音交互之外还会辅助以肢体和表情等形式,它们正在悄然发展。随着AI技术的发展和融合算法的进步,人和车的交互还会朝着多模交互的方向发展,以语音交互为基础,通过触屏、按键、旋钮、肢体等交互增加车内人车交互的默契感。

2019年CES上,除了 Just Talk这个语音免唤醒功能之外,Cerence的Dragon Drive汽车平台推出了新的人工智能功能:凝视检测,系统可将眼睛轨迹和头部角度与精确的汽车定位,以及3D环境建模相结合,以跟踪用户的注视。当用户查看车辆内外的对象,并随便说出它,比如一家餐厅,人工智能根据推理,就能很明确地知道用户想知道的是什么。诸如地平线、百度等公司,也都在向多模态交互尝试。

放大 缩小 默认
关于我们 | 企业公示 | 手机版
主办单位:上海汽车报社有限公司 备案号:沪ICP备16052313号-2