撰稿 | Philip(香港中文大学,博士生)
“嘿,Siri,今天天气怎么样?”
设想这样一个场景,当你早上起床,向你的智能手机发起这样一个语音指令,从用户命令到结果可能有大约0.2秒的延迟——看似一个非常小的数字,但实际上,这是一个明显的延迟。
解释一下,语音识别需要依赖大型神经网络模型。执行任何复杂神经网络模型所需的费力矩阵计算可能数以十亿次计。矩阵本身包含数十亿个权重参数,这些参数需要存储,然后从内存中反复获取到CPU或GPU,在那里进行实际计算。
出现这种延迟的主要原因是边缘设备没有足够的内存存储模型中大量的权重参数,并且缺乏高功率运行的条件,一般是将该模型存储在数百英里外的数据中心,并在那里运行出结果再发送到设备上。可以想象,当你每次想在边缘设备中实时运行一个网络模型时,运行速度取决于内存中获取程序的速度。
这里有一个全新的名词——“边缘设备”,我们先来理解这个词的含义。
“
边缘设备是用于在本地网络和云之间传输数据的设备。它们能够将本地设备使用的协议或语言转换为云使用的协议,数据将在云中进一步处理。本地设备使用蓝牙、wi-fi、Zigbee和NFC等协议,而云端使用AMQP、MQTT、CoAP和HTTP等协议。为了让物联网数据在云端和本地设备之间移动,边缘设备(如智能网关)会在两个来源之间转换、分类和安全地传输信息。
如果没有边缘设备,这些类型的数据将不兼容,无法到达云服务进行深入分析。
边缘设备使用物联网或工业物联网将数据传输到云端或直接在边缘执行功能。边缘设备还通过互联网传输数据。
有两种类型的边缘设备——传统边缘和智能边缘。传统的边缘设备通过安全网络传输数据,几乎没处理能力。智能边缘设备是可以在数据源附近执行边缘计算任务的智能设备,用于工业自动化。
要解决这种延迟,有一个更好的解决方案,从边缘设备获取输入麦克风、摄像头或传感器数据,并通过设备本身的已获得权重参数的DNN运行这些数据。这将大大减少当前将输入数据发送到远程云服务器、运行计算并返回结果所导致的延迟。并且,这还将增强安全性,因为边缘设备和云服务器之间的通信通道很容易被黑客滥用和窥探,该方法避免了用户数据的传输。
但是,问题是带有芯片级传感器的边缘设备通常需要具备毫瓦级别功耗的要求——比以数字电路处理器执行神经网络计算所需的功率低几个数量级。因此,试图将DNN计算从云服务器转移到更靠近互联网边缘的位置将需要提高边缘设备的尺寸、重量和功率 (SWaP) 要求,使其超出当前市场可接受的范围。
鉴于此,麻省理工学院、麻省理工学院林肯实验室和诺基亚公司的科学家,提出在紧凑、节能的边缘设备上进行网络计算,创造了一种直接在这些设备上进行计算的新方法,从而大大减少了这种延迟。他们的技术将运行机器学习模型的内存密集型步骤转移到中央服务器,在中央服务器上模型的组件被编码到光波信号上。
使用光纤将光波信号传输到连接的设备,这使得大量数据能够通过网络以闪电般的速度发送。然后接收器使用一个简单的光学设备,该设备使用这些光波携带的模型参数快速执行计算。
与其他方法相比,该技术可将能源效率提高一百倍以上,缓解了边缘计算对能耗和内存的负担。它还可以提高安全性,因为用户的数据不需要传输到中央位置进行计算。
相关成果以“Delocalized photonic deep learning on the internet’s edge”为题发表在Science。
图1:智能收发机硬件渲染图。使用光子学可以显著加速机器学习在边缘设备上面的运行过程,使得边缘设备在执行计算时能效提高一百多倍(Alex Sludds/MIT)
神经网络是最经典的机器学习模型,它使用可调节的权重层和非线性神经元对目标函数进行近似,从而优化模型解决各种问题,例如机器视觉和语音识别。这些模型可以包含数上千亿个权重参数 (如ChatGPT),而这些参数则需要在训练时进行优化调整,这要求足够大的内存进行存储。同时也意味着数据转换过程涉及数千亿次浮点数计算并消耗大量的电力,该过程甚至需要上百万美元的训练成本。
在他们开发的基于光子深度学习边缘计算架构Netcast中,大量的权重数据被存储在中央服务器中,该服务器是一种称为“智能收发器”的新型光子硬件。该光子硬件虽然是只有拇指大小的芯片,但是可以接收和传输数据,并通过光的多种复用技术获得3 THz(10¹²)的超大带宽实现每秒从内存中获取数万亿个权重参数。这个数据传输速度相当于每毫秒左右通过互联网发送一部完整的高清电影,这就是数据进入Netcast架构的接入速度。
具体来说,Netcast接收到以电信号表示的权重数据并将它们转换为光信号。Netcast系统旨在将光带到它可以带来最大效率收益的地方:将数十亿矩阵权重传输到边缘设备,以及DNN矩阵乘法本身的执行。
该智能收发器通过控制激光器的开关来实现信号的发射:激光打开表示1,关闭表示0。相当于权重数据可以被持续的进行组合并利用普遍的光纤网络基础设施进行传输,边缘的客户端设备只需要保持数据接入,而无需对中央服务器进行查询请求就可以源源不断的接收到它们。
宽带“马赫-曾德尔”调制器被用在边缘客户端对接收到的权重光信号进行超快速模拟计算。它可以将边缘设备采集到的数据(如实时图像)编码到权重上,然后接收器(如光电二极管)接收对应波长的光信号,测量其功率信息并获取计算结果。研究人员甚至发现在实用超导体的理想环境中可以测得单个乘法累积运算的平均耗能低于一个光子的能量(图2)。
图2:由编码输入信号和权重信号的调制器和超导纳米线单光子探测器(SNSPDs)组成的概念验证实验装置
研究人员通过86公里长的光纤发送权重来测试这种架构。Netcast使机器学习具有很高的准确性——图像分类的准确率为98.7%,数字识别的准确率为98.8%——而且速度很快。
总结与展望
作为一种全新的实用的边缘计算方案,Netcast可实现图像识别、解释传感器数据或其他功能,同时DNN 直接在快速、支持光子的边缘设备上运行,而不必传输到远程云服务器进行处理。
这种技术可以使自动驾驶汽车做出实时决策,同时其耗电量仅为计算机耗电量的极小部分。它还可以让用户与他们的智能家居设备进行无延迟对话,通过蜂窝网络进行实时视频处理,甚至可以在距离地球数百万英里的航天器上实现高速图像分类。
论文信息
Sludds, A., Bandyopadhyay, S., Chen, Z., Zhong, Z., Cochrane, J., Bernstein, L., ... & Englund, D. (2022). Delocalized Photonic Deep Learning on the Internet's Edge. Science, vol. 378, no. 6617, pp. 270-276, 2022.
https://doi.org/10.1126/science.abq8271
参考文献
封面图来源:Light新媒体/Veer
1. https://www.machinemetrics.com/blog/edge-devices
2. https://news.mit.edu/2022/optics-deep-learning-computations-1020
3. https://www.optica-opn.org/home/newsroom/2022/october/internet_edge_computing_the_photonic_way/?feed=News