视频演示
10:27
一、背景
继上文《ChatGPT+小爱音响能擦出什么火花?》可以看出大伙对AI+硬件的结合十分感兴趣,但上文是针对市场智能音响的AI植入,底层是通过轮询拦截,算是hack兼容,虽然官方有提供开发者接口,也免不了有许多局限性(比如得通过特定指令唤醒),不利于我们去探索研究。
那不如我们自己开发一个智能音响?甚至尝试去实现我们之前的讨论“给GPT4一个完善的硬件环境,比如接一个摄像头,周围景象根据摄像头的图片帧数据流识别内容,转换成肢体语言,操控硬件肢体”。这样仔细想想,是不是有点类似漫威钢铁侠中贾维斯的味道?
因此需求确定了,尝试做一个虚拟管家。让电脑成为一个贾维斯,具备智能音响的所有功能的同时,更AI化:「充分利用电脑强大的性能(本地操作文件、摄像头及语音设备、请求接口能力、启动各种服务做联动等等),接入ChatGPT做大脑中枢进行控制,实现类贾维斯效果。」
二、原理
有幸发现了@wzpan开发的一个开源智能音响项目: wukong-