Hugging Face简介

1、自然语言处理究竟要做一件什么事呢?

  • 大家可能经常听到分类,机器翻译,情感分析,智能客服,摘要与阅读理解等
  • 想一想我们在长大的过程中,如何来学习语文的呢?难道只是上课背考试题吗?
  • 我们语言能力的学习源于生活中的点点滴滴,一次对话,一次阅读都是学习
  • 那么我们需要训练的NLP模型,只是为了得到最终的一个输出结果吗?

NLP(Natural Language Processing),自然语言处理,但是我们现在更愿意将其称作为语言模型。

人类眼中的有多种数据、电脑眼中只有数字、机器学习(深度学习)眼中只有特征,自然语言处理就是一个让机器学习理解人类语言的过程,而算法工程师需要做的就是把人眼中的数据处理成机器学习眼中的特征。也就是说我们的模型需要学的是文本的东西,应该怎么去理解,如何去转换成一些合适的特征,最后让模型具有语言能力。

其实到了2023年,NLP已经不仅仅是一个处理特征的模型,NLP最后需要学的是一个学习能力,已经不仅仅是输出一个结果而已,而算法工程师需要培养模型的学习能力。

2、如何培养模型的学习能力?

  • 需要特定的任务和标签吗?我们的每一次对话难道都对应了标准答案吗?不是的
  • 更重要的是训练阅读能力,学习能力,理解能力,那么只需给模型阅读资料即可
  • 所谓阅读资料,就是咱们人类的文本数据,小说,新闻,电影等都是可以的
  • 所以,我们现在需要模型具备的是语言理解能力,而是不是分类那种专项技能

那我们应该语言模型的能力应该怎样去提升呢?有一些训练数据和一些训练标签,然后去训练这个模型。是这样的吗?其实不是的,现在的NLP已经不再是这样一个简单的传统机器学习流程了。实际上我们真的有特定的数据和标签吗?我们是如何理解人类的文字的,我们的说的话在特定的场景下意义就会发生改变,没有一个标准答案的。那我们应该怎样提高我们的阅读能力、理解能力呢?

AIGC时代的NLP,需要做的是让模型能够理解到一个词紧接着后面应该出现的一个词,所以最重要的是模型能够根据前面的语言环境能够预测后面应该出现的词,所以模型需要学的是一个语言能力。

现在去训练一个NLP模型,是没有标签数据的,可毕竟是一个机器学习任务,那应该怎样做呢?如果我们有一篇文章,将文章中的一些词遮挡住,让模型去预测出这些遮挡的词。这样的做法可以保证模型必须去理解前后词与上下文的意思了。

3、NLP中的江湖人物

  • 天下风云出我辈,一入江湖岁月催;谁才是当下的大佬呢?
  • 早期的NLP比较简单,完全没有训练学习能力,只需完成特定领域的任务即可
  • 现在的NLP可以简单划分成两大门派:BERT系(五岳剑派),GPT系(魔教)
  • 难道只有他俩吗?还有很多的,只不过他俩比较出名,大部分任务都可以套用

比如上面的第一句话,GPT的做法每一次都是根据前面的词预测后面的词(用天预测下,用天下预测风,用天下风预测云这样以此类推),而bert总是去遮挡一些词来预测。BERT的做法实际上还是一个比较正统的做法,在2018年到2021年时期一直处于如日中天的地位,在2021年到2022年gpt由于chatGPT的火爆出圈逐渐占据主要地位,这个过程中gpt相比bert还是一个比较另类的做法。

4、NLP究竟拼的什么

  • 拼网络结构,损失函数,还是各种训练技巧呢?
  • 从目前NLP比较核心的模型来看,主要拼的是数据量和参数量
  • 刷屏的模型的以及比较炫酷的模型都是训练数据和参数量极其恐怖,令人发指
  • 我们能做的什么呢?咱们也要训练模型吗?我们也必须得用海量的数据吗?

在NLP领域,很多事情都不是我们自己能做的。比如说我们自己设计一个模型,我去跑一些数据,可以吗?不可以!因为我们没有计算资源。计算资源是个事啊,我可是有4090。你手里有4090啥也不是,你手里有100个4090可以玩一玩儿。

NLP非常吃算力,它的batch必须要非常大才可以。每个人说话的特征,分布都不尽相同,不想图像任务,猫就是猫狗就是狗。

NLP任务的数据集是怎么来的?是各个场景中产生的,不是一个人说的,也不是一个人写的,是海量的互联网数据.

人类学会语言也有多个阶段,也必须经历海量的数据,每一天都会产生新的理解。人学会开口说话,人学会正常的语言表达,人学会语言的言外之意,人从无数种形式(网页文字、视频、语音、对话)理解语言表达的意思。

现在的NLP任务,1700亿的参数,几千T的数据量,这些对于人类多种感官生成的数据来说其实都很小,但是这就是当下的NLP基本体量。但是NLP领域的参数与数据的上升是呈指数级别的。

所以NLP到现在拼的实际上就是算力了,为什么不是算法呢?BERT和GPT本质上差异大吗?其实没那么大,都是基于Transformer。

对于我们绝大多数的算法工程师来讲,除非你是科学家级别的,我们自己做不了语言模型。我们能做的是拿别人的模型完成我们的任务。

5、如何开始NLP呢?

  • 传统算法意义还大嘛?有必要深入学习吗?
  • 如何大家看一些公开课或者教材,都是长篇大论,谈古说今
  • 今天的NLP其实已经不再需要传统方法,一些交给Transformer就足够了
  • NLP领域这么多算法和模型,咱们要神农尝百草一个个来学习一个个来实验吗

NLP领域的传统算法特别特别多,能多到什么程度呢?多到你一年都学不完,有必要搞吗?有一些教授专家级别的任务会说从0基础养成的过程。  其实很多90%的东西,已经用不上了,不要再拿半年的时间去学传统NLP了。现在你只需要记住一个名字,Transformer就行了。像以前的贝叶斯、n-gram模型、TF-IDF、词袋模型,那些你都忘了它吧,你只需要记住Transformer了。

6、Hugging Face

  • 先说重点的:Huggingface就是集大成者于一身,包括了当下NLP所有核心模型
  • 对我们来说,调用BERT模型,GPT模型及其训练好的权重参数,只需1行代码
  • 微调我们自己的任务,只需处理好咱们的数据,然后继续训练模型即可
  • 即便你对数学一无所知,即便你对代码稀里糊涂,即便你对数据无从下手

Hugging Face是NLP一个集大成者的一个包,所有的语言模型,所有的预训练参数以及网络结构,全部给你封装好了,比如你需要谷歌的Bert模型,你需要openAI的gpt模型,只需要一行代码就可以了。

复杂的模型网络你不需要去看了,复杂的模型参数也不需要你去训练了。

7、Hugging Face能干啥

  • Hugging Face不仅是一个工具包,更是一个社区,也是NLP大佬们的舞台
  • 给你1000W你能做出来一个抖音不,相信很多开发大佬都是确定的
  • 但是运营好,却可能要花掉超过千倍的开发成本,所以它不仅仅是模型
  • 越来越多的学术大佬通过它来开源模型,来宣传论文以及研究成果
  • 对我们来说这是一件大喜事,大佬们的东西,咱们可以随时来玩了

Hugging Face它在GitHub的开源项目据说有史以来增长最快的一个。

Hugging Face有大量的已经预训练的模型,我在官网中找出一个使用的例子:

点击model,搜索chinese,选择bert-base-Chinese模型

现在Hugging Face的官网显示有超过二十四五七千个预训练模型供你选择。

假如说给你1000万你能做出一个抖音,做出来了有用吗?没有用,因为抖音之所以是抖音,不仅仅是因为它的功能和技术,最主要的是因为它是一个很大的社区,你喜欢的人和身边的朋友会在上面发视频、看视频,你可以进行一起参与。

所以说Hugging Face做了一件很伟大的事情,你自己如果训练出了一个很好的模型,你也可以上传到Hugging Face上,让很多人去使用你的模型,让别人对你的模型进行反馈,你可以根据别人的反馈进行改进更新。

8、关于它的故事

  • 据传说,30个兼职的开发与算法工程师就撬动了20亿的市值
  • 其实这离不开开源的力量,AI领域太需要一个舞台和社区了
  • 时势造英雄,赶上了Transformer在AI领域爆火,第一个吃螃蟹的人
  • BERT和GPT席卷NLP,Huggingface坐收渔利,社区驱动技术进步

一开始这老板就是组织了一群很喜欢玩NLP的人,没想过要做成独角兽。在当时比较乱,现在这个时代已经出不了英雄了。

17年google有TensorFlow,玩儿Bert

FaceBook不乐意了,用PyTorch玩Bert,TF需要配置的环境特别麻烦,模型源码互相转换特别麻烦。

后续涌现出了多个框架,亚马逊的MXNet、百度的飞浆(PaddlePaddle)、加州伯克利的Caffe等,Hugging Face在这个时候出了一个统一的封装接口,无论是什么框架,哪个顶级团队的模型,都能用它的接口去用,所以它提出了Hugging Face最早的接口。当年30来个人,老板稀里糊涂的就做出来了。

9、一举两得,分而治之

  • AI离不开学术上的驱动也离不开工程化的落地
  • 搞学术的来为社区提供模型以彰显其在该领域的地位与能力,引用量刷刷的
  • 搞项目的通过社区提供的预训练模型完成自己的任务,项目落地效率杠杠的
  • 那么我们呢,先学后用,站在巨人的肩旁上,算法也要熟悉,模型也要会用

Hugging Face创始人接受采访,说不管是AI还是NLP都离不开两个方向,就是学术研究和工程落地,将两个方向结合起来才能真正发展NLP,Hugging Face实际上就是提供了一个结合两者的舞台。

他甚至说,不仅要做NLP领域,还会有更大的动作,要去动CV领域。

10、那么中国为什么诞生不了Hugging Face

  • 一切都是开源的,其实变现之路很难,不像openai搞付费API接口
  • 30个兼职初创兴趣爱好走到了一切,咱们这兴趣能抵房贷吗
  • MMLAB感觉跟Huggingface很像啊,但别忘了得有商汤的资本维持
  • Huggingface之路不仅于此,接下来要从黑木崖发兵一同江湖了(CV等领域)

在国内是不接受免费的,动不动就法务给你发律师函,在国内不盈利的事情没有公司愿意做。

Hugging Face是模型、分词器、数据集三大模块都能做的特别好,已经是一个巨大的生态体系。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/25673.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OpenAI文档翻译——搭建第一个自己的ChatGPT应用

这篇主要是讲了重头到位创建一个基于OpenAI API的应用程序的过程,同时给出了Node.js、Python版本的实例代码。应用程序的构建总体来说是很简单的就是一个接口调用,前提是我们需要提供密匙。 如果想要获取更好的结果返回一个是可以给模型提供一些列子从而…

Mac如何下载Rocket.chat软件

公司使用Rocket.chat作为沟通工具, 用Mac的我软件一直安装失败 错误操作如下 使用App Store下载,下载的软件无法打开 正确操作如下 1.去github网站找安装包 https://github.com/RocketChat/Rocket.Chat.Electron/releases 2.找到自己需要的版本&#…

Hello Ai Chat for Chat GPT for mac(人工智能Chat GPT聊天工具)

Hello AI Chat for Chat GPT是一款基于GPT技术的聊天机器人应用程序,它可以通过人工智能技术理解和回复用户的问题。 Hello AI Chat for Chat GPT的一些特点: 智能回答:Hello AI Chat for Chat GPT基于GPT技术,可以理解和回答用户…

ChatGPT通过谷歌L3入职测试,拿到18万美元offer?程序员们该何去何从?

这次,ChatGPT赢麻了! 近日,关于ChatGPT的各类消息冲上热搜,在这个需要大量高水平人才补充的市场转折点上,越来越多的AI产品开始进入人们视野。从AI绘画到ChatGPT,其实用性、可操作性一次比一次完善&#xf…

chatgpt赋能python:Python并行处理文件:加快数据处理效率

Python并行处理文件:加快数据处理效率 Python作为一种高级编程语言,广泛应用于数据分析,大数据处理,机器学习等领域。在处理大量数据时,串行处理速度较慢,甚至可能耗费数小时或数天的时间。因此&#xff0…

打通同花顺问财接口!各类数据应有尽有!股票量化分析工具QTYX-V2.6.4

前言 同花顺的i问财是一个机器人智能选股问答平台,输入一些条件信息就能得到对应的选股结果。 从问财这个平台可以获得各式各样的选股数据,把这些数据融入到自己的股票量化交易平台中岂不是获得到了源源不断的数据源。 于是,我们把问财接口融…

同花顺量化交易平台Supermind股票量化思路--爱问财初探

近期在b站发布了几个关于supermind量化版本的说明,包括如何快速使用和学习supermind,如何快速部署实盘等。b站:大牛的分享 或关注同花顺微信群 ,群内咨询也可。 下面直接上干货: 实盘框架:日线级别from t…

[047量化交易]python获取股票 量比 换手率 市盈率-动态 市净率 总市值 流通市值

import akshare as ak# 获取沪 股票信息 stock_sh_a_spot_em_df ak.stock_sh_a_spot_em() # 获取深 股票信息 stock_sz_a_spot_em_df ak.stock_sz_a_spot_em() # 合并 stock_all_a_spot_em_df stock_sh_a_spot_em_df.append(stock_sz_a_spot_em_df) print(stock_all_a_spot_…

!! A股历史平均市盈率走势图

http://value500.com/PE.asp 一、 A股历史平均市盈率走势图 *数据来源:上海证券交易所 分享到: 354 - 上海A股 深圳A股更新时间 2017年6月7日 2017年6月7日平均市盈率 16.62 34.88 二、市盈率是什么? 市盈率(Price to Earning Ratio&#xf…

使用同花顺F10查看个股概况!股票量化分析工具QTYX-V2.1.9

前言 股票分析中选股是很重要的一个环节,特别是在市场走势普遍向好的环境下,选股比择时更为重要。 原因很简单,就是资金的使用效率要最大化。 比如同样的资金在同样的持股时间下,你的股票只涨了10%,大盘涨幅30%&#x…

简单的低频指数投资一:利用tushare计算指数市盈率

对于广大的投资者来说,投资指数基金是最简单而有效的选择。而目前一种投资指数的方法就是通过市盈率等指标来计算指数的估值,并通过低估买入,高估卖出的方法投资。 然而tushare只提供了上证50,沪深300,创业板等几个大…

股票高频数据(分钟数据)的入门分析方法——已实现波动率的计算(含完整代码)

本文摘要 本文叙述了对股票市场高频数据分析一个简单方法,即已实现波动率的计算和后续的相关研究。 采用上证综指2019年至2021年3年间实时交易价格的每分钟数据,在已实现方差法下计算了各抽样频率下上证综指日已实现波动率的数值(Realized Volatility&a…

Midjourney绘制插画,绘画重来没有如此之简单 - 第12篇

历史文章(文章累计460) 《国内最全的Spring Boot系列之一》 《国内最全的Spring Boot系列之二》 《国内最全的Spring Boot系列之三》 《国内最全的Spring Boot系列之四》 《国内最全的Spring Boot系列之五》 《国内最全的Spring Boot系列之六》 用…

北大郭炜教授《程序与算法(二)算法基础》学习笔记

目录 第一章 枚举例题一 完美立方例题二 生理周期例题三 称硬币例题四 熄灯问题 第二章 递归(一)例题一 求阶乘例题二 汉诺塔例题三 n皇后问题例题四 逆波兰表达式 补充笔记(from theCherno)第三章 递归(二)例题 一 求…

75岁图灵奖得主Hinton离职谷歌!痛悔毕生工作,无法阻止人类AI大战

【导读】入职谷歌10年后,人工智能教父Hinton选择离职。对于造就了如今AI技术繁荣的神经网络,Hinton表示:这是我毕生的后悔。 一觉醒来,整个科技圈惊掉了下巴!!! 深度学习泰斗、神经网络之父Ge…

GPT可以被放任的在问答区应用吗?

GPT可以被放任的在问答区应用吗? 1、CSDN问答乱象2、GPT-4,大增长时代的序幕数字生命离我们到底还有多远?AI 家教/老师/教育 距离独立又有哪些需要完成的过程? 3、老顾对CSDN问答的一些看法老顾对GPT使用者的一些建议 1、CSDN问答…

华语辩论冠军的思辩表达

华语辩论冠军的思辩表达 这是一门思考表达的高阶技术,也是这个时代,每个人的必修课。 学了他,你才能在焦虑的时代学会如何思考与表达观点,才能领先他人。 查看原文下载 上一篇:零基础学photoshop 下一篇&#xff…

《杀破狼》:可能是华语动作电影最后的绝唱!

https://www.toutiao.com/a6681956509103948292/ 2019-04-20 20:43:54 《杀破狼》是一部大咖云集的警匪动作片,为了解决观众的审美疲劳期,本片在功夫设计上走了综合格斗的线路,散打、擒拿、跆拳道等功夫路数全面铺开,剧组的花边消…

挑起华语电影大梁后,金鸡奖正在借前沿技术实现蜕变

文 | 曾响铃 来源 | 科技向令说(xiangling0815) 与电影大量使用新技术拍摄、呈现更多样化的观影体验相对应的是,近些年,在“电影节”这件事上也出现越来越明显的技术身影,这一切都指向了如何提高观众的注意力。 在注…

Python爬虫:想听榜单歌曲?使用BeautifulSoup库只需要14行代码即可搞定

目录 BeautifulSoup库安装BeautifulSoup库BeautifulSoup库简介选择解释器基础用法 节点选择器获取节点名称属性内容获取所有子节点获取所有子孙节点父节点与兄弟节点 方法选择器find_all()方法find()方法 CSS选择器嵌套选择节点获取属性与文本 通过浏览器直接Copy-CSS选择器实战…