前言
Google 最近发布的 Gemini
模型在全球引起了巨大反响,其在多模态领域的 Video demo 无比震撼。对于 Android 开发者而言,其中最振奋人心的消息莫过于 Gemini Nano
模型将内置到 Android 系统当中,并开放给开发者使用。
事实上,能够自研 LLM
大模型的企业屈指可数,大多数的企业或个人都是在搞基于 LLM 的应用创新。而各大模型们各自为政,提供的能力、对接方式都参差不齐,即便在应用这个维度,开发者也很难整体、高效地去开发、拓展。
要是能够将 AI 相关接口统一、能力整合封装、甚至结合端侧硬件去内置默认的 AI 模型,这将是非常高效、安全的创举!
Google 坐拥全球顶尖的 AI 技术,同时掌控着市占率最高、各领域全面开花的 Android 平台,自然非常有理由、也有实力去做这样的事情。目前已知的是 Google 将在 Android 平台提供 AICore 服务,当前还在宣传阶段、尚未完整公布 API 细节。
笔者将基于披露出来的所有信息,跟大家分享 AICore 的目的和架构思路。
AICore 解决了什么?
早在 Android 14 Beta3 发布的时候,一位开发者 Mishaal Rahman 便在 Pixel 的 /product/priv-app 目录下发现了一个名为 “Google AI Services” 的系统 App。
- 具体的包名为
"com.google.android.aicore"
- 目前只是一个
stub
版本
按照 Google 的描述:AICore 是运行在 Android 平台上,可以让开发者便捷访问端侧内置的 AI 模型(on-device model)的系统服务。通过 AICore 可以对类似 Gemini Nano 这种端侧模型实现模型管理、运行时调用、安全检查、多模态等能力,并保留相应的 API 给开发者进行灵活的运用。当然这需要端侧模型本身针对移动芯片等设备做专门的优化。
AI 能力
那么具体来说,AICore 可以做哪些场景的支持呢?
包括但不限如下等强大功能:
-
高质量文本摘要、问题回答、问题扩展
-
上下文智能回复
-
高级校对和语法纠正
应用场景
以 Gemini Nano 在 Pixel 8 Pro 设备上为例:
-
即使在手机网络断开的情况下,也能简明扼要地概括录音机应用中的内容,提供端侧摘要能力。
-
利用 Gemini Nano 的支持,开发者可以通过 AICore 实现在
Gboard
、WhatsApp
等更多的聊天 App 中实现智能回复,给出高质量的回复建议,节省用户的时间。
原理架构
这是 Google 公布的 AICore
的 high-level architecture:
- 对 App 来说,像其他 SDK 一样,暴露 API 和 OS 中的 AICore 能力对接
- 对内部来说,整体上效仿了
Private Compute Core
的设计方式,通过开源 API 与网络隔离,兼具透明度和可审计性
细看内部:
- AICore 首先加载
LoRA
低等级适配程序,以支持开发人员根据自己的训练数据对大模型进行微调 - 经过上个步骤可以产生所需的 LLM,比如微调 Google 内置的
Gemini Nano
- 同时还构建了专门的
Safety features
层,确保数据的安全
此外,AICore 支持部署在很多的机器学习芯片上,比如最新的 Google Tensor TPU、旗舰产品 Qualcomm Technologies、Samsung S.LSI 和 MediaTek 芯片中的 NPU 等更多的芯片设备。
如何使用?
目前来说,AICore 只支持 Pixel 8 Pro 设备,API 也仍在开发当中,需要的话可以在如下链接申请内测资格:
- sign up for our Early Access Program
我已经申请了内测资格,通过之后深入分析下 API 和整体链路,届时再分享给大家。
结语
每当出现新的技术,Google 总会整合这些能力,建立统一标准,集成到 Android 框架当中,供开发者便捷地封装,App 灵活地调用。从语音兴起时候的语音识别 SpeechRecognizer
、语音播报 Text-to-speech
到智能助理活跃时候的语音交互 VoiceInteraction
,再到增强现实、虚拟化盛行时候的 ARCore
。
这次的 AICore
也是一样,将 AI 能力规范化、接口/协议统一化,方便开发者进行 LLM 的选择、调整以及应用创新。再借助数以亿计的 Android 设备的呈现,必将加速 AI 技术的发展和普及。
事实上,AICore 内置到 AOSP 当中的话,那么 Android Automotive
OS 也将受益。所有从 Android、Automotive 延伸出来的车载机系统,只要芯片硬件上兼容,未来都可以利用 AICore 技术进行很多车载场景的拓展,包括但不限于:
- 记录用户的口音和表达方式进行训练,以增强本地的语音识别和语意理解,分析对话习惯、并结合多模态定制专属的对话形式和内容,提供个性化的话术内容和情感播报
- 学习车主习惯,进行车机主题、驾驶模式、导航路线、车控组合等方面的智能推荐
- 结合车机整体,进行全方位的数据收集,本地进行驾驶、乘坐的回忆统计,给车主更加贴心的总结、建议
大家总说 Android 已趋于成熟、缺乏新意,那么本次的 AICore 绝对是新颖、有趣的话题,赶紧支棱起来。
参考
- AICore Home page
- A New Foundation for AI on Android
- Introducing Gemini: our largest and most capable AI model
- Android 14’s mysterious AICore system app makes its debut on the Play Store
文章推荐
- 如何打造车载语音交互:Google Voice Interaction 给你答案
- Android 标准语音识别框架:SpeechRecognizer 的封装、调用和原理
- 直面原理:5 张图彻底了解 Android TextToSpeech 机制