对于机器学习领域的开发者而言,上图中的笑脸应该不陌生了。
这是AI社区 Hugging Face 的标志之一。这家成立于 2016 年的公司,随着机器学习的发展而进入越来越多人的视野之中,也被许多人视为是“机器学习的 GitHub”。
今天 Hugging Face 宣布,其在短短一周内筹集到 1 亿美元的新资金,新一轮融资由 Lux Capital 领投。根据外媒报道,Hugging Face 的估值达到了20亿美元。
从NLP到整个ML
最初成立的时候,Hugging Face 还是一家纯粹的NLP技术公司,他们开发了一款 iPhone 聊天机器人应用程序,可以分享自己电脑生成的脸的自拍照,讲笑话并八卦它和 Siri 的故事。比较适用于无聊的青少年,所以,它也几乎没有赚到钱。
质变时刻出现在 2018 年——他们不再盯着青少年,而是将目光转向开发人员。Hugging Face 的创始人开始尝试免费在线分享应用程序的底层代代码,很快,包括谷歌和微软在内的一些业内知名科技公司的研究人员开始将其用于AI程序。
后来,最早的聊天机器人早已从 App Store 中消失,Hugging Face 逐渐转向为构建即用型机器学习模型的库,并进一步围绕开源库构建社区,尤其是预训练模型库 Transformers。
Transformers 问世以来,成为NLP领域大量state-of-art的预训练语言模型结构的模型和调用框架。基于迁移学习,Transformers 作为新一代机器学习架构的出现,展现出了强大的力量,最早是从文本开始的,但现在它开始进入所有机器学习领域,这是机器学习工具的新发展。
也正是在这个过程中,越来越多人通过Hugging Face 进行Transformers的相关研究。
现在Hugging Face 已经提供 BERT、GPT-2、T5 和 DistilBERT 等流行 模型。在社区的努力下,XLNET、XLM等一批模型也被相继引入,整个家族愈发壮大,这个库更名为pytorch-transformers。
随着Transformers也被用到NLP领域之外,Hugging Face 也超越 NLP ,往前迈了一步踏入 ML 模型中心和社区的定位。
Hugging Face 介绍自己是增长最快的社区和最常用的机器学习平台,平台已经托管了 100,000 个预训练模型和 10,000 个数据集,覆盖 NLP、计算机视觉、语音、生物学、强化学习、化学等。
有超过 10,000 家公司正在使用 Hugging Face 构建机器学习技术,其中不乏 Meta 的 AI 部门、亚马逊网络服务、微软和谷歌 AI 等领先的AI研究团队。
而在 Hugging Face 公司 CEO Clement Delangue 看来,自家平台被誉为“机器学习的 GitHub”,是一个准确的类比。
他曾表示:“每一项新技术都有一个新的定义类别的平台来构建它。GitHub 是用于软件的,而我们正在成为机器学习的平台。”
更具体的,技术进步一直是整个领域协作工作的结果。过去所有的技术进步,从来都不是单打独斗实现的。这一点在机器学习领域更是如此。
而且和软件开发社区不同的的是,机器学习的科学驱动色彩更加浓重,这也就意味着机器学习领域将继承科研社区的开放和协作风格。
通过尝试建立一个平台而不是试图与其他公司竞争,可能可以对整个领域产生更大的影响力,因为你与世界各地最好的科学家合作和出色的团队进行了大量合作,这就是Hugging Face所希望促成的。
Hugging Face 的成长正佐证了这一类观点:机器学习的民主化,可能是几十年来最大的技术进步。
“开放和协作”的机器学习进化
值得一提的是,在这次的融资动态之前,Hugging Face 最近在道德人工智能领域招聘了一些“醒目”的人:2021 年 8 月,前谷歌道德人工智能研究小组负责人 Margaret Mitchell 加入 Hugging Face 。Hugging Face 还吸纳了拥有哲学博士学位的Giada Pistilli ,专门研究对话式 AI 伦理。
CEO Delangue 评估认为,这类人才的加入,是现阶段Hugging Face 的一个重要优先事项。
除此之外,在AI 伦理方面,Delangue 透露,Hugging Face 对 AI 和 ML 的未来有“强烈的看法”。
“正如科学一直通过开放和协作来运作一样,我们认为将机器学习能力高度集中在少数玩家手中存在很大风险,尤其是当这些玩家没有做过对社区来说是正确的事情。
通过在生态系统中更加开放和协作地构建,我们可以让机器学习成为对每个人都有益的技术,并致力于应对我们所看到的一些短期挑战。”
Delangue 表示,Hugging Face 计划继续扩大其团队,包括团队的人数和多元背景,从科学和工程到产品和业务方面,将覆盖不同背景的所有职位和能力(在过去的 12 个月里,团队成员已经从 30 人增加到 120 多人)。
“这对我们来说是一个很大的进步,我们也希望看到平台上的模型和数据集数量越来越多。”
该公司还对 Big Science 项目感到兴奋,这是一个为期一年的大型多语言模型和数据集研究项目。
Delangue介绍道,这是Hugging Face与 1000 多名科学家和 200 个组织领导的最大规模的机器学习合作项目,也是受到了物理学等其他大型科学合作的启发,“我们想为机器学习创造类似的东西”。也正是 Hugging Face 对这种开放式合作方式的强调,让投资者对 20 亿美元的估值充满信心。
“这对我们来说真的很重要,让我们成功,让Hugging Face与该领域的其他人不同。”
参考:
https://huggingface.co/blog/series-c