除了物理阻隔,极昼一號的人声识別需要耗费的算力投入也是极大的。
极昼一號搭载的三百六十度声场定位麦克风阵列,在实验室安静环境下可以做到一度的声源定位精度,但是在家庭环境里,是做不到那么安静的,客厅开著的电视声,厨房运行的抽油烟机声,楼上邻居拖动的椅子声……这些背景噪声叠加在一起,会把声场的信干噪比直接拉到个位数,远场语音识別的准確率从实验室的百分之九十八能直接掉到百分之七十几。
而恆科的解决办法是加大前端降噪算法的算力投入,给麦克风阵列的每个通道都单独跑一路自適应滤波,这就导致计算延迟更大了,网络传输的数据包更多了,整个系统的实时性进一步的恶化了。
这些都不是算法的问题,而物理现实在拖后腿。
信號从空气里传到麦克风振膜需要时间,电磁波从路由器天线辐射出去穿过墙体需要时间,云端伺服器的推理计算需要时间,这些时间加起来,就构成了那道看不见的墙,把所有科幻电影里流畅得像人类一样的机器人,死死拦在现实世界的对岸。
肖宿翻完最后一页技术文档,把平板推到一边,靠在椅背上,陷入了思考。
网络本身的结构性延迟这个问题他之前在思考小智框架的时候就隱隱约约碰到过,只不过当时重心在ai的数学基础上,没有深挖,现在要改造极昼一號的硬体,这个问题就绕不过去了。
现有的网际网路协议栈,从物理层到应用层,七层结构的设计理念可以追溯到七十年代的arpa。
tcp/ip协议族的核心假设是尽力而为的包交换,每一跳路由器都是一次不確定的等待,每一条链路都是一段不可控的延迟。
过去几十年,网络工程师们在这个框架上打了无数补丁,从最初的ftp到后来的,从简单的缓存到复杂的边缘计算,但是底层的逻辑是一点没变的。
信息从a点传到b点,中间要经过无数个中转节点,每一个节点都可能成为瓶颈。
更不用说无线信道本身的物理特性了。
多径效应、阴影衰落、信道间干扰,这些问题在香农的资讯理论框架下已经有完备的理论极限。
香农极限规定了在给定信噪比和带宽下信息传输速率的上界,不管用什么编码方式、什么调製技术,都不能突破这个天花板。
肖宿的目光无意识地落在墙角那盆绿萝枯黄的叶子上。
香农极限。
上界。
信道容量。
这些概念在他脑子里像一串被碰倒的多米诺骨牌,哗啦啦地往一个方向倒去。
信道容量的定义,本质上是在一个给定物理介质上传输信息的最大速率,而这个最大,是在所有可能的编码方式上取上確界。
从数学上讲,这其实就是一个变分问题,在所有可能的信號分布中,寻找那个能让互信息达到极大的分布。
变分问题。