迈阿密2010_第78章都市

设置

迈阿密2010

作者：曾照云上飞 | 分类：都市 | 字数：52.2万

第78章锥处囊中

书名：迈阿密2010 作者：曾照云上飞字数：3237 更新时间：2024-11-25 23:38:57

史蒂芬在房间和家娃一起调试写出来的雷电浏览器。

亨利和女儿在客厅吵嘴。

“你告诉怀特，那晚我们在蓝猫小舍了？”

夏洛特觉得老爹又想借题发挥：

“是的，但这又没什么。”

亨利痛苦咆哮：“天呐！

“夏洛特，你不能再见他了，明白吗！”

“为什么？”

亨利大叫：“因为你的话，他现在觉得我杀了他爸！

“你没觉得有什么问题吗？我觉得问题大了！”

夏洛特冷不丁：“除非真是你干的。”

亨利捂住胸口：“夏洛特，你觉得，我能做出那样的事来吗？”

夏洛特：“你不能阻止我见别人！”

“我可以！如果有必要，我可以把你送去非洲的寄宿学校，不要逼我！”

夏洛特根本不怕亨利，嗤笑一声：

“你很喜欢打受害者的苦情牌，是吧？！”

亨利很懵：“抱歉，‘受害者的苦情牌’？”

夏洛特：“作为一家之主，你总是不断重复‘我好惨啊’，这样的老调重弹！”

亨利痛苦：“就因为我不喜欢你吸嗨后的口不择言吗？

“我所谓的女儿，要像敌人一样对待我吗？”

夏洛特正想无情戳穿他中年人的装模作样，突然看到史蒂芬的卧室门，啪哒一声打开，连忙闭嘴。

秀才遇到兵，耍嘴皮子的最怕动手揍人的。

史蒂芬戴着耳塞，从冰箱里拿出牛奶，自顾自返回卧室，才不管叛逆期的小妹和中年危机的老爹。

谷歌大厦。

语音识别部。

虽早已过下班时间，但办公室里依然灯火通明。

“…使用了非常先进的语音识别技术，几乎将人机对话这一设想变成现实！

“瞧，在断网状态下，它都能借助机器的识别和理解，将人类的语音信号转换成对应文本。

“…前端的信号处理、中间的语音、语义识别和对话管理，以及后期的语音合成…简直是艺术品！”

谷歌的两位工程师测试着维斯顿语音输入法，脸上露出朝圣般的崇拜，还有幻想中的技术被人实现的惊讶。

“我已经喊老大过来了，咱们继续测试！

“从小词汇量到大词汇量，再到超大词汇量；

“从限定语境到弹性语境，再到任意语境；

“从安静环境到近场环境，再到远场嘈杂环境；

“从朗读环境到口语环境，再到任意对话环境；

“从单语种到多语种，再到多…

“哇喔！断网时，表现优秀；联网时，堪称完美！”

谷歌语音识别部门的老大，首席工程师威尔，带着一群技术人员围过来。

众人对两人所说的测试结果难以置信。

“我们的语音输入法，还处于对每个建模单元的统计概率模型进行描述阶段，哪里冒出来的小公司，meta？已经推出如此成熟的产品了！”

威尔手心全是汗，花了公司几千万，没开发出最先进的产品，终会有人担责。

“是和我们一样，采用高斯混合模型（gmm)，用海量数据训练出来的吗？”

威尔抿着嘴唇，盯着手下操作，“应该不是gmm，那本质上是一种浅层网络建模，对特征的状态空间分布不能充分描述…特征维度一般也就几十维，对特征之间的相关性也不能进行充分描述…”

在周杰前世，直到2011年，微软公司基于深度神经网络，才在语音识别系统研究方面取得阶段性的成果。

由家娃变异进化后优化出来的维斯顿，已远超微软那时的技术。

此世此时，巨头们在语音识别方面，还处于实验阶段。

而维斯顿语音输入法，在语音的前端处理涵盖的几个模块，已极度优秀。

说话人声检测模块，可以有效地检测说话人声开始和结束的时刻，并区分说话人声与背景声。

回声消除模块，让音箱播放音乐时，消除来自扬声器的音乐干扰，不暂停音乐而进行有效的语音识别。

唤醒词识别模块，是人类与机器交流的触发方式，就像日常生活中需要与其他人说话时，你会先喊一下那个人的名字。

麦克风阵列处理模块，对声源进行定位，增强说话人方向的信号，同时抑制其他方向的噪声信号。

语音增强模块，进一步增强说话人的语音，有效抑制环境噪声，降低远场语音的衰减。

威尔紧张到嘴里碎碎念：

“平时自命不凡，但我们在技术方面已完全落伍！

“这是手机软件，手持设备使用，属于近场环境，语音识别已属完美。

“厉害的是，维斯顿好像真有智慧一般，具有智能。联网安装到车载、智能家居等设备时，这款手机软件，竟然能自动优化匹配设备！

“一般语音识别系统，在车载、智能家居等远场环境中，声音传达到麦克风时会衰减得非常厉害，导致一些在近场环境中不值一提的问题被显着放大。

“需要前端处理技术能够克服噪声、混响、回声等问题，实现远场拾音…我们的技术做不到。

“但维斯顿轻易做到了！在远场环境下，几次训练数据，就能对模型进行持续优化，提升远场拾音的效果！

“这是神级产品！我们必须要联系上开发者！”

最先发现维斯顿厉害的工程师汤姆耸耸肩：“没有任何联系方式！

“…我和杰瑞认为，维斯顿是通过深度神经网络，采用高维特征训练来模拟，大幅提升了语音识别系统的识别率…

“实际解码过程中，仍采用传统的隐马尔可夫模型（hmm)、传统的统计语言模型和传统的动态加权有限状态转换机(wfst)解码器…

“但在声学模型的输出分布计算时，完全用神经网络的输出后验概率，乘以一个先验概率来代替传统hmm中的gmm的输出似然概率。

“这样的语音识别系统的误识别率，与gmm语音识别系统的误识别率相比，下降了至少25%！

“我们部门正在研究的语音输入法完了！”

语音识别的过程需要经历特征提取、模型自适应、声学模型、语言模型、动态解码等多个过程。

谷歌秘密成立的语音识别部门，在各个环节对维斯顿进行了测试。

自己设想中的产品完败，更别提产品都还没做出来。

杰瑞话比较少，直奔主题：“而且，在联网状态下，完美解决了‘鸡尾酒会问题’！”

“鸡尾酒会问题”显示的是人类的一种听觉能力。

能在多人场景的语音、噪声混合中，追踪并识别至少一个声音，即便在嘈杂环境下也不会影响正常交流。

在鸡尾酒会上与朋友交谈时，即使周围环境非常嘈杂，其音量甚至超过了朋友的声音，我们也能清晰地听到朋友说的内容。

若此时，人们的听觉器官突然受到某个刺激，如远处突然有人喊了自己的名字，或者在非母语环境下突然听到母语，即使声音出现在远处、音量很小，我们的耳朵也能立刻捕捉到。

机器缺乏这种能力。

汤姆点头：“我们的产品即使做出来，通过大量数据训练，有信心在识别一个人所讲的内容时，能够体现出较高的精度。

“但，当说话人数为两人或两人以上时，识别精度就会大打折扣。

“在给定多人混合语音信号的情况下，从中分离出特定说话人的信号和其他噪声，我们基本能做到。

“一旦需要同时分离出说话的每个人的独立语音信号…我们，无能为力。”

汤姆语气沮丧：“在我们的设想中，即使再多训练数据的积累和训练过程的打磨，也没幻想过能基本解决‘鸡尾酒会问题’！”

威尔眼神阴鸷：“这款产品我们必须拿下！

“语音搜索、语音翻译、机器朗读、语音导航、语音拍照、语音拨号、语音唤醒、智能语音操控…语音识别技术大有用武之地！

“更何况，维斯顿能真正做到像正常人类一样与其他人流畅沟通、自由交流！

“诸位，仔细想想，语音识别的优势和价值一旦被挖掘、发挥出来，必将对即时通信、购物和搜索等垂直应用产生的巨大影响。

“其中的市场，蕴含多大的利益！”

都是业内人士，知道老大的意思，众人眼神对视后默默点头。

前世，苹果公司的ios手机有siri，谷歌公司的android手机有googlenow，微软公司的windows手机有corana等。

智能语音控制成为进入移动互联网的钥匙，人机语音交互越来越频繁。

老年人视力下降、动作不灵活，低龄儿童一时还不具备手写能力，失明人士无法通过视觉识别事物…

他们都可以通过语音交互给生活带来方便。

以谷歌的实力，语音识别秘密部门聘请的人，自然都是优中选优的高手。

很快，威尔就得到反编译的源代码。

多更一章，谢谢书友

“虚无湮灭”

“冷漠玫瑰plus”

“端木黯然”

书友

众位大大的推荐票！

感谢“虚无湮灭”大大的评论！

迈阿密2010

第78章 锥处囊中

第78章锥处囊中