通用汽车旗下的安吉星从 1995 年开始在北美向用户提供语音导航、救援、车辆安全防护、娱乐等信息服务,并且第一个进入中国市场;福特从 2010 年开始与微软合作推出车载信息系统 ford sync,这一系统可以识别 19 国语言,包括一些方言,能够理解一万条语音指令;近几年,丰田的 g-book、福特 my ford 和日产的 carwings 也开始随潮流涌现。
这意味着,当我们驾驶时,不必分心在中控屏幕上选择目的地,也不必伸手去接听电话。甚至有一天,我们可以畅想:吩咐汽车去做任何事情。
下面回到现实。
汽车厂商每年在中控屏幕几十亿人民币的投入,本意是想提升汽车的科技感和用户操作的便捷性。但令他们失望的是,大部分车主并不为此而买单,依然习惯在车内用手机导航或者查询信息。
造成这一现象的原因可以简单理解为:以往一些初级的语音控制类的应用,比如导航、语音拨号等等,用户要启动这些服务必须按照产品手册的说明,完整地说出固定格式的句子,才能被机器识别。在这些应用中,数据库是简单而又原始的,在识别过程中也没有太多算法可言,它们只是负责「搬运」。
不注重用户体验,使得语音交互成为汽车场景下相当鸡肋的产品。
2014 年以前,科大讯飞主要的关注点还不在汽车上。当时团队认为语音在汽车上的应用只是一个点缀。那时讯飞的角色是一个小模块供应商,将语音技术授权给第三方厂商。
2014 年后,科大讯飞团队慢慢意识到语音有可能成为汽车上的刚性应用和入口,他们开始和汽车厂商接触与合作。为此还专门成立了一个百人规模的团队专门负责车载语音研发与服务的工作。
上周末,包括雷锋网在内的几家媒体参观了科大讯飞和奇瑞的总部。双方联合开发了一款深度定制语音技术的车载系统: cloudrive2.0,搭载在奇瑞的新车艾瑞泽 5 车型上。
「这是一个整体的软件系统,包括信息服务、车和驾驶者的交互。」科大讯飞执行总裁吴晓如在媒体沟通会上说道。这意味着科大讯飞从语音技术的提供商,到现在成为一个「云加端」的软件和服务系统。
而这种云端与本地的打通,可以为一些本地无法完全识别的内容提供联网识别,并经由云端下载更新包来完善离线识别效果。
cloudrive2.0 界面
从功能上和操作上,这套系统与汽车厂商推出的车载系统并无二致:导航、语音控制、蓝牙电话、4g 上网和倒车影像等等,用户可以通过方向盘或中控台上的物理按键唤醒语音命令,也可以用「小艾你好」语音唤醒指令代替。
讯飞麦克风阵列板
不过从体验上来说,讯飞的语音服务做得更加流畅。按照官方的说法,汽车在高速行驶时,语音的识别率也能保证在 90% 以上。这是因为在硬件上,讯飞使用了麦克风阵列定位人声,在驾驶和副驾驶位置的麦克风位于中控屏幕下方,可以准确定位音源位置。
一般说来,汽车场景下车载系统应该有三种交互方式:语音、触摸和按键。
触摸交互或按键交互是设定好的一层一层界面,比如点击第一个图标,然后出现第二个画面。语音方式并不一样,语音的交互是扁平化的:如果用户表达的意思足够精确,能够直接呈现最终结果。
「这给我们提出了一个很大的挑战,就是我们能不能基于用户对车载系统发生语音交互的时候,把用户最需要的那条信息呈现出来。」吴晓如告诉我们。
但事实上这项挑战在 6 个月内便完成了,并且还取得了不错的效果。科大讯飞汽车事业部总经理刘俊峰给出一个数字是:上线三四个月以来,用户的这种活跃的比例达到 85% 以上,在线平均时长达两个小时。
在与奇瑞合作之前,讯飞并没有车载系统的整合经验。为此,2015 年讯飞入股美行科技,后者是车载信息系统、电子地图软件、位置服务领域产品和服务商;中国移动作为讯飞的股东方,也提供一些资源上的合作,包括咪咕音乐的亚博电竞网的版权以及车联网相关的流量套餐服务;对于涉及到用户在服务过程中遇到的各类问题,讯飞又参股了呼叫中心公司。
有了这些资源和支持与整合,为讯飞快速推进 cloudrive2.0 打下了基础。从另一个角度看,能与汽车厂商进行合作,这也证明讯飞的语音技术得到了前者的认可。
尽管如此,在媒体沟通会上吴晓如向我们坦言,目前在车载语音的技术环节上还需要继续突破。比如如何留下有效信息,过滤无效信息、如何适应多种噪音环境、如何保证在自然语言下,实现更有效地多轮人机交互等等。这也是下一阶段他们要攻克的难题。
上个月初,「互联网女皇」称号的玛丽·米克尔发布了一份互联网趋势报告,213 页的报告内容,十分之一的篇幅给了语音。她认为:语音技术的爆发,技术成熟是核心原因之一。目前,语音识别准确率已从 2010 年的 70% 上升到今年的 90%。可以预见的是,如果语音识别准确率从 95% 提升到 99%,将从量变引发质变。
吴晓如说,汽车在语音应用的门槛刚刚取得突破性进展,未来语音交互在汽车领域的应用将翻番。