娇妻难养老公太凶猛[汽车之家互联出行]在过去一年的智能车联测试项目中,总有朋友提问:我们在文章中提到的很多名词,很难从字面理解是什么意思,有时候会让人摸不着头脑。正好借着这个各位居家“沉淀”自己的机会,我们就开启一个系列,挨个为大家注解那些晦涩难懂的专有名词,讲讲它们的含义、背景和意义,也备日后相关文章引用。这第一期,我们就先聊聊语音控制中的那些常见名词。
互联网常识告诉我们:当两个字母/数字中间夹着一个“T”或者“2”时,它大概率指代“to”这个单词,例如:P2P、B2C、V2X,STT和TTS也是类似。
在部分技术文献中,这个环节也被称为ASR(Automatic Speech Recognition,自动语音识别),是融合了语言学、计算机科学以及电气工程领域知识和研究的一个复杂项目。
我们在宣传语中经常听到的“语音引擎”,通常就是指这五个环节的集合。在研发当中,尽管部分供应商具备完整的解决方案,但往往一辆车的语音控制系统会在不同环节选择不同的供应商,彼此通力合作,才达到最终的效果。
除了我们上文中解释过的词汇,NLP(Natural Language Processing,自然语言处理)是把用户的指令转化为结构化的、机器可理解的语言。
语音控制是一个复杂的涉及语言学、计算机科学、电器工程等学科,云端和本地融合的一项复杂功能,往往需要车企的电器部门和多个供应商同时合作,以达到最好的效果。对服务商而言,想提供最好的产品,需要在语言分析、指令集上常年累月的积累,想做好,线
在过去一年对车载语音控制的测试中,有两个“高频词汇”——OneShot连续说和免唤醒。它们也是除“识别率”以外,我们最为看中的语音控制功能。
你有想过为什么一定要唤醒词吗?因为人在日常交流中很容易触发语音控制中的某些功能,
唤醒词就是要规定一个时间段(唤醒之后到结束对话),在这个时间段内,语音引擎才对你说的话进行处理反馈
那为什么不能像日常交流一样,直接叫名字呢?比如:李响,帮我打开空调。也是因为两三个字的名字很容易被误识别,导致误触发语音控制。所以唤醒词通常会被设置成“叠词”、“打招呼+名字”以及“某某同学”等,以降低误触发的概率
但这也导致一个问题——人与人的交流模式完全不是这样啊!下面这张图是基本的车载语音控制交流模式,你看是不是特别熟悉。
发现没有,这是一个越来越接近人与人交流方式的过程,同时也是一个越来越缺乏礼貌的过程,对的,人的交流方式就是没礼貌的。
以上是OneShot和免唤醒的含义和意义。而关于免唤醒词,这里还要多说两句,
或是在音乐播放界面下,你可以直接说“暂停”、“下一首”、“增大音量”,而不需要先唤醒语音控制功能。
在采用科大讯飞语音引擎的部分车型(长安CS95、奇瑞艾瑞泽GX冠军版等)上使用的就是这套逻辑。
在大部分功能都可以直接下达指令的情况下,系统还是要限定一个时长,如果不限定时间,误唤醒问题出现的概率仍然是难以接受的
车联网名词注解系列的第一期,我们解释了语音控制系统的几个名词,聊了它们的定义、背景和价值。人与人的沟通,其实绝大部分都是通过“说”和“听”来实现的,当然,我们还有表情、手势等等,相比之下,想要让机器理解表情和手势的含义就更难了。各大车企、研究机构、语音交互方案提供商口中的类人交互,就是让机器学会理解语言、看懂手势甚至体会情感,语音控制作为其中一项,也才处于起步阶段呢。什么时候把“处理”真地变成“理解”,我们才进入了下一个更加智能的阶段。(图/文 汽车之家 郑旭)
|