关于 Google 中文语音搜寻,我们得到更多的信息,包括:

  • 中文语音搜寻不等同于自然语言语音辨识,原因在于语音搜寻只需要辨识一组或几组关键词,并不需要面对人类语言文法的问题,所以较容易达成,辨识度也相对高。
  • 先前提到可以中英文混合辨识,严格来说是不行的,因为中文和英文的辨识引擎有些许不同。但更大的原因在于,华人说英文和自然英文在辨识并不相同,所以目前的作法将一些华人常用的英文加入中文语音辨识的辨识库当中。
  • 语音搜寻的准确度关键除了只需辨识关键词以外,更重要的原因在于使用云端运算。简单来说,过去单机的运算能力不足做到大量数据比对和运算的工作,但透过云端则能完成。然而Google技术的难度在于如何在这一瞬间把录音、封包数据送到运端、运算辨识、再封包送回行动装置上这些动作做完。
  • 关键词辨识中,最不容易做到的地方在于数字辨识,因为平平一个「135」,可能就有「一百三十五」、「一三五」或更多种数字的讲法。另一方面,同音多义也是语音辨识的难处所在,例如「旗舰」和「歧见」。Google有一种特别的克服方式,就是用过去人们搜寻的数据量来判读。
跳转再看两段「地点语音搜寻」和「地址语音搜寻影片」:
地点语音搜寻:台北101

地址语音搜寻:台北市中山南路21号