大模型有没有能力打穿智能音箱硬件的市场壁垒
突然看到小度科技景鲲和朱凯华要离职创业的消息,一下子就觉得很有必要再说下智能音箱。智能音箱当年纷繁乱战,百度其实是其中一只非常重要的力量,而代表人物无疑就是景鲲。本来以为大模型可以让这款产品迎来自己新的想象空间,没想到却看到这么个消息。这实在是为上一波的智能音箱彻底的画上了个句号。
智能音箱:产品路线图上的“兵家必争之地”
为什么说智能音箱是产品路线图上的兵家必争之地呢?因为以AI为主打的多模态产品怎么都绕不过它。
就像喀什之所以重要就在于它是两条西去路线的交汇处一样,大山就留了这么个口子,你想如果要像玄奘那样西行就怎么也绕不过这地儿。
智能音箱是智能产品的一个槛,它成了很多同种类产品比如故事机、镜子等就成了,它不成AI大模型的力量其实就在纯软的空间里憋着,我们设想的多模态产品等就止于想象。在从Agent到多模态,大模型想要什么?中我画了一张产品的图,无意间也正好把智能音箱放到了这么一个中间的位置上。
这产品非常的承上启下。承上承的就是纯软的Siri类助理,启下启的的就是各种机器人。(兵家必争之地的一个隐含意义就是这地儿本身不一定有那么大价值但丢了会很难受)
那为什么智能音箱会在这么个位子呢?
原因也不复杂。
但在回答这问题之前需要区分两类产品:一类是AI为主打特征的产品,一类是AI是辅助特征的产品。
遥控器上也可以放语音交互功能,但那是辅助特征。智能音箱则不是。智能音箱如果AI不出彩,这产品就立不住。对于很多产品AI是作料,像遥控器那样辅助特征,智能音箱这个产品上AI是主菜,别的功能特征辅助AI。
这是很少的几款真正靠AI特征驱动并且达到一定量级的产品(扫地机器人其实也是)。
对于AI主打的产品要么你处理纯粹的数字世界的工作,否则要想走出来和现实世界有交互则需要通过声光电热力磁各个维度的不同传感器,感知现实世界并进行决策等,基于此提供新的体验和功能。在其中智能音箱主要改变交互,感知和接入现实的程度最浅,也就意味着难度其实最低。如果这么说不好理解,可以类比导购机器人,显然的导购机器人需要对现实进行更深层次的感知。
最容易的产品立不立得住基本表示大模型等的新能力是不是能够走出数字空间,走出想象,获得一条商业上真的能够通往现实世界的路。
当然智能音箱可以涵盖带屏不带屏的版本。顺道说一句电视不管加多少语音特征都不是AI主打的,电视主要还是依赖自己的内容分发通路,核心支撑是它的屏。依赖屏和依赖智能特征很容易混杂,但其实不是一个事。(这个区分和综合后面会落在AR眼镜上)
如果智能音箱能成立,具身机器人就肯定可以获得一个比较坚实的基础,在它上面进行生长,否则就得变成必须靠自己移动的特征、更深层的感知来获得应用场景上的支撑,这显然更困难。这就是为什么前面说智能音箱可以启下。
当然反过来也成立,智能音箱都做不好,却指望一个更难的能成立,这不虚妄么。
过去做的怎么样呢?
我觉得有70——80分。
智能音箱的事业其实是一锅烧成了90度的水,或者说打穿80%市场壁垒的事。
为什么这么说呢?
因为如果你说它不成立,它每年也有3——4千万的销量;如果你说它成立呢,它核心的产品支撑其实回归到了音箱的特征,只在极小的一些功能,比如天气、闹钟上保留了一点智能的特色。当然它还可以负责链接,比如控制窗帘,但这事也就属于能用,却并不出彩。
每天的活跃很难超过10次,并且领域很窄。
这导致了一个不上不下的局面。
所有当初的设想中和入口价值有关的部分都很难成立。没太看重的,比如变成了单独的一个消费电子品类,变成一个新的类似电视的产品,它却逐渐成立了。从这个角度看,蓝牙音箱到智能音箱更像是黑白电视到彩色电视的升级,而不是计算机变成电脑了。
从公司运转的角度看,精细化运营是可以打平的,但很可能价值还不如扫地机器人,因为单价太低。
从战略意义上看,对大公司而言它就变的不怎么有战略意义了。
这就更让智能音箱不单在技术上还在市场上成为一个试金石。
在有用户基础的前提下,如果大模型的新势能还是撑不起它来。那在现实空间大模型就只能辅助做些边缘型的产品比如故事机等。(当然这不妨碍纯粹数字空间里面Copilot这类产品成立)一旦跨过了这个槛,就不单是音箱,甚至可能会重构手机,让机器人真的产品化。这就可以打开一个近乎无限的空间。
那实际情况更可能是什么样呢?这次能打穿这个应用壁垒,迈过这个坎么。
有点够呛?
至少是下一波3——5年后的事了。不是眼前的事。
各种智能硬件所代表的硬应用本质都和感知反馈所能扩充的应用空间有关。
这么说有点抽象,我们可以类比下智能音箱和Siri类助手。
Siri类助手是真的助手,更像是一个软的超级应用,实现现在微信借助小程序所能实现的一切功能,虽然也可以推个消息,但本质上是被动被用户使用,不感知环境的。
但智能音箱则不一样,它可以有耳朵听你喊没喊它,甚至听是不是有异常的声音;它可以有眼睛捕捉手势,甚至看到是不是有老人摔倒然后报警。后者这类对环境感知所支撑的的价值越大,硬应用价值越大,越会成为一个单独的品类,否则装APP就够了,买个音箱干啥!
所以此前的GPT4对智能音箱类产品本质帮助不大,内容生成等更匹配生产力工具(电脑、平板)。
最近的多模态确实在支撑这个空间。让感知、决策、反馈的链条可以更连贯。
而刚出来多模态版本显然有很多路要走,但更关键的还不是这个,而是这个新品类要想成立,第一关键固然是依赖的技术要素成熟不成熟,但更关键是则是一种基于现实的想象力。在早期阶段甚至都不需要更便宜,而是需要真的好用的新品类,否则和需求和市场之间的通路是堵着的。
挑动这个的难度恐怕不低于创造iPhone。因为这根本不是现在这条路继续走下去,走快点就能走到目的地的工作。
对于智能音箱而言这需要再定义这个品类,打造出除了音乐等内容输出外更有价值的功能点。这会很像Pokemon Go扮演的角色。如果整不出来,单纯是裸的模型其实基本没帮助,也拯救不了智能音箱。
这么说估计还是抽象,我们举几个发散的、不一定行的例子:
比如做英语陪练,那智能音箱上的陪练要能听的远,看的见,要拟人真的像一个英语老师,否则就还是手机阴影下的产品。类似的可以有很多拟人的产品,它可以成为一个能讲故事、回答问题的启蒙老师么?
比如,在真的足够丰富的元宇宙里,它如果代表了你和元宇宙的连接,代表你的分身,那它就有独立的价值。
这是真的麻烦。希望有人能肩负起这个使命,否则就只能等C2C。
而假如C2C,再假如open AI这种公司带头来做,并且真的做出来了,那对于硬件产品再经过市场检验的两三年,怎么也是三年后的事了。
回到大分类
在AI个体户的崛起:普通人“屁胡”的机会、模式和风险中,我们做过一个这样的总结:
长尾曲线最头部是通用大模型以及配套的生态,次一级是现有应用的人工智能化和垂直领域的系统型超级应用,尾部会甩开大量人工智能的新应用。这个尾巴有可能比过去应用商店里的应用甩的长。
现在看来大模型自身,系统型超级应用,长尾新应用中,现在看中间这节是最不通畅的。多模态应用比如智能音箱则正好是其中一个比较大的分支。
这其实很要命的,就像人的腰很关键一样,如果这节起不来,那回卷会把一切基础设施上比如英伟达、数据等的泡沫挤的干干净净。(我有个朋友经常关注基础设施,但其实基础设施后续走势的关键可能并不在大模型,而在这里)
小结
顺道一说,近来经常看到很多人和10年前一样,又去追论文,追那个科学家的什么观点,试图弄清楚模型到底什么技术源流,参数是什么含义等。这些东西要知道,但实在离应用太远,科研上越热的离的越远,所以更应该被折叠,知道一个相对确定的结果就可以了。从应用看技术,其实远比比从技术看应用更关键。不管是Mac,Windows,还是iPhone其实都是从应用看技术的结果,而非相反。