读AI未来进行式笔记03自然语言处理技术

1. AI伙伴

1.1. 作为AI能力的集大成者,AI伙伴融合了各种复杂的AI技术

1.2. 人类唯一可能超越AI的领域,只可能在机器无法触及之处,那是属于人类感性与直觉的领域

1.3. 要读懂人类,需要漫长而平缓的学习过程

1.4. AI塑造了我们,我们反过来也塑造了AI

1.5. AI的“思考模式”与人类的思考模式完全不同

1.6. 在很多任务上,人类会比机器更擅长

1.6.1. 如果AI的进步推动了人类的发展和进化,届时甚至会出现新的更能凸显人类智慧的任务

1.7. 应该把精力放在开发适合AI的、实用的应用程序上,并寻求人类与AI的良性共生,而不是纠结于基于深度学习的AI能否成为或者何时成为通用人工智能的问题

1.7.1. 只有人类才是智能的黄金标杆──这是人类的一种自恋倾向

2. 自然语言处理技术

2.1. NLP

2.2. AI研究的核心目的,是希望计算机拥有与人类一样的智慧和能力

2.3. 语言,则是人类最重要的思维、认知与交流的工具

2.3.1. 人类智慧的每一次进步都离不开语言“开路”

2.3.2. 自然语言是人类通过社会活动和教育过程习得的语言,包括说话、文字表达以及非语音的交际语言,这种习得的能力或许来自先天

2.4. 如何让计算机有效地理解人类语言,进而实现人机之间有效的信息交流,被视为AI领域最具挑战性的技术分支

2.4.1. “图灵测试”,就是把利用自然语言进行交流的能力当作判断机器是否已达到拟人化“智能”的关键指标

2.4.2. 如果机器在对话交流中做到成功地让人类误认为它也是“人类”,就意味着机器通过了图灵测试

2.5. 对NLP的研发推进是AI科学家的重要议题,他们希望通过算法模型让AI拥有分析、理解和处理人类语言的能力,甚至可以自己生成人类语言

2.6. 在“学习”方面,深度学习技术具有得天独厚的优势——不仅可以轻松掌握复杂的词汇关系和语言模式,还能凭借“计算机学生”的特性,通过源源不断的数据汲取更多知识,进而实现能力的扩展

2.7. 先提出假设,然后验证假设,这就是遵循求真原则的科学活动的过程模式

3. 有监督的NLP

3.1. “有监督”意味着在AI模型的学习阶段,每一次输入时都要提供相应的正确答案

3.2. 把上百万个英语句子,以及与其一一对应的由专业翻译人员翻译好的上百万个法语句子,作为模型的输入―输出训练数据

3.3. 有监督学习的方法还可以用于语音识别(将语音转换成文字)、语音合成(将文字转换成语音)、光学字符识别(将手写体或图片转换成文字)

3.4. 在处理这类自然语言方面的具体识别任务时,有监督学习非常有效,AI的识别率超过了大多数人类

3.5. 自然语言理解

3.5.1. 有监督的NLP模型的训练数据应尽量穷尽针对同一种意图所可能使用的尽可能多的表达方式,但是只有经过人工标注的数据才能训练出有效的语言理解模型

3.5.2. 无法实现通用性的自然语言理解

3.5.2.1. 一方面不可能有这样的通用性应用
3.5.2.2. 另一方面也无法进行通用性的数据标注
3.5.2.3. 试图给世界上所有的语言数据都打上标签也不现实,因为其背后所需要耗费的时间和成本几乎是无法想象的

3.6. 数据标注

3.6.1. 这个职业在过去20年里不断发展壮大,甚至成了新的就业方向

4. 自监督的NLP

4.1. 自监督,就是在训练NLP模型时,无须人工标注输入、输出数据,从而打破了有监督学习的技术瓶颈

4.1.1. 自监督学习方法名为“序列转导”(Sequence Transduction)

4.2. 2017年,谷歌的研究人员发明了一种新的序列转导模型,称为Transformer,在做了海量语料训练后,它可以具备选择性记忆机制和注意力机制,选择性地记住前文的重点及相关内容

4.2.1. 这种NLP模型在学习语言时所依靠的不是人类语言学理论中的词形变化规律和语法规律,而是依靠AI自创的结构和抽象概念,从数据中汲取知识,然后将其嵌入一个巨大的神经网络

4.2.2. 整个系统的训练数据完全来源于自然语言环境,没有经过人工标注

4.2.3. 以丰富的自然数据和强大的数据处理功能为基础,系统可以建立自己的学习模式,进而不断强化自己的能力

4.3. 一些输入法的“智能预测”功能,可以根据用户的习惯,在已输入词语的基础上进行关联词语推荐或长句补全

4.4. 百度和谷歌等搜索引擎也引入了AI搜索模型,它们会在搜索框里自动补全关键字,帮助用户更快地锁定搜索目标

4.5. GPT-3

4.5.1. 最著名的“通用预训练转换器3”(Generative Pre-trained Transformer 3,GPT-3)在2020年问世了

4.5.2. OpenAI最令人兴奋的研究成果,它有一个巨大的序列转导引擎,建立了一个庞大的神经网络模型来学习分析语言,这个模型几乎覆盖了所有我们能够想象得到的概念

4.5.3. 需要的计算资源也是惊人的:它在全球顶级的超级计算机平台上进行训练,使用了当时世界上最大的语言数据集——处理前容量超过45TB

4.5.3.1. 如果一个人想要读完这个数据集,必须耗费50万次生命周期

4.5.4. 在具备多种语言功能的同时,GPT-3的庞大网络也可以根据某一特定领域的海量数据或与该领域相关的附加信息,快速掌握这一领域的语言

4.5.4.1. GPT-3的这种“迁移学习”与人类孩童的学习过程类似:人类孩童在学习诗歌语言或者历史、计算机编程等领域的专业术语之前,要做的第一件事情就是学会说母语

4.5.5. GPT-3在抽象概念、因果推理、解释性陈述、理解常识以及(有意识的)创造力等方面的能力也很弱

4.5.6. 因为GPT-3吸收了海量的来自人类的数据,所以人类的主观偏见与恶意也就难免被它一同吸收了

4.5.7. GPT-3的这些漏洞可能会被别有用心之人利用,比如针对不同人的不同特性定制某些内容,来直接影响人们对事物的想法和判断

4.5.8. 完全不知道自己说的这段话是什么意思,其根本原因在于GPT-3不具备自我认知的能力

5. NLP应用平台

5.1. GPT-3最令人兴奋的潜力在于,它有望成为一个崭新的平台或底层架构

5.1.1. 让用户与历史人物穿越时空对话的聊天机器人

5.1.2. 根据用户按下的吉他音符自动完成后续乐曲创作的作曲器

5.1.3. 依照用户给出的半张图片自动补全整幅画作的图像生成器

5.1.4. 有一款名为DALL.E的应用,能够按照用户输入的随机文本生成相应的图片

5.2. NLP平台还可能成为下一代搜索引擎,回答人们提出的任何问题

5.3. NLP平台还将记录一些客观发生的基本事实

5.3.1. 体育比赛的结果或股票市场的最新动态

5.3.2. 从一段长文字中提炼出要点,以便节省读者的阅读时间

5.3.3. 会成为记者、金融分析师、作家以及任何文字工作者的绝佳工具

5.4. 提升机器“智能”的最佳途径是开发通用计算方法(如深度学习、GPT-3),在数据持续增加和算力持续升级的基础上,这些通用计算方法会使机器逐渐变得更“智能”

6. 教育领域的AI

6.1. 在过去的100年中,科技浪潮给我们的工作、生活、沟通、出行甚至娱乐方式都带来了翻天覆地的变化

6.2. 除了在2020年以来的新冠肺炎疫情期间全世界的孩子被迫临时改成在线学习外,今天的教育,无论在本质上还是在教学形式上,同100年前相比,几乎没有什么差别

6.3. 教师的部分工作可以利用先进的AI技术实现自动化、标准化,特别是一些重复性高的工作

6.4. AI还能够协助教师策划、设计丰富的课堂形式与教学内容,为学生提供更好的沉浸式互动体验,比如让历史人物“复活”并与学生对话

6.5. AI在教育领域最需要挖掘的潜能,就是为未来的孩子提供个性化的学习方式

6.6. AI导师能够注意到什么方式或内容会让学生的瞳孔放大、变得兴奋,什么方式或内容会让学生的眼皮发沉、开始走神

6.7. 人类教师

6.7.1. 第一个重要角色是做学生的个性化人生导师

6.7.1.1. 人类教师有着机器所无法取代的人性光芒,能够理解学生的心理及情绪,加上人类教师能够与在教学中承担重复性、标准化任务的AI助教无缝配合
6.7.1.2. 把更多的时间用在培养学生的价值观、性格、情商上,以及培养学生的批判性思维、创造力、应变能力等非知识性的软实力上

6.7.2. 第二个重要角色是对AI导师、AI伙伴的工作进行前瞻性的规划及指导,定义下一个阶段的目标,以便进一步满足学生的需求,甚至主动探索学生在未来可能出现的新需求,帮助学生拓展发展领域

6.8. 在AI承担了一部分教育工作的任务之后,基础教育的成本将降低,从而使更多的孩子能够享有公平接受教育的机会

6.8.1. 教育创新企业或机构可以研发更多的边际成本几乎为零的AI应用,真正实现教育资源均等化

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/340981.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

什么是OCR转写服务?

OCR(Optical Character Recognition,光学字符识别)转写服务是一种技术,用于将图像或扫描文档中的文字转换为可编辑的文本格式。这项服务通过识别图像中的文字,并将其转换成计算机可读的文本形式,从而使得用…

uni-app+php 生成微信二维码 分销海报

主要代码如下,可直接复制调试参数: //查询当前用户是否有分销海报public function user_poster(){$this->checkAuth();//查询会员信息$user $this->getUserInfoById($this->user_id);if(!empty($user[distribution_img])){$result[data] $use…

vue2中使用tinymce

vue2中使用tinymce的记录 本篇文章主要实现的功能: (1)【查看】时禁用编辑 (2)【编辑】时某些内容是不可编辑的 实现效果图: 第一个功能的主要代码 disabled属性 // 使用地地方,传递disabled属…

白银票据~

一. 白银票据的原理 白银票据就伪造ST票据, kerberoasting是破解ST票据中的服务用户hash值,有以下区别: 白银票据:伪造的ST使用的是机器用户的Hash值 Kerberoasting:破解的是ST的域用户的hash值二. 白银票据的利用条件 1.域名 …

Python第二语言(二、Python语言基础)

目录 1. python中常用的6中数据类型 2. Print语句(输出程序) 3. 字面量 4. 注释 5. 变量 6. 数据类型 7. type()语句:查询数据类型 8. 数据类型转换语句 9. 标识符 10. 算术运算符 11. 赋值运算符 && 复合赋值运算符 12. …

Oracle导出clob字段到csv

使用UTL_FILE ref: How to Export The Table with a CLOB Column Into a CSV File using UTL_FILE ?(Doc ID 1967617.1) --preapre data CREATE TABLE TESTCLOB(ID NUMBER, MYCLOB1 CLOB, MYCLOB2 CLOB ); INSERT INTO TESTCLOB(ID,MYCLOB1,MYCLOB2) VALUES(1,Sample row 11…

Spring boot实现基于注解的aop面向切面编程

Spring boot实现基于注解的aop面向切面编程 背景 从最开始使用Spring,AOP和IOC的理念就深入我心。正好,我需要写一个基于注解的AOP,被这个注解修饰的参数和属性,就会被拿到参数并校验参数。 一,引入依赖 当前sprin…

【scikit-learn009】异常检测系列:单类支持向量机(OC-SVM)实战总结(看这篇就够了,已更新)

1.一直以来想写下机器学习训练AI算法的系列文章,作为较火的机器学习框架,也是日常项目开发中常用的一款工具,最近刚好挤时间梳理、总结下这块儿的知识体系。 2.熟悉、梳理、总结下scikit-learn框架OCSVM模型相关知识体系。 3.欢迎批评指正,欢迎互三,跪谢一键三连! 4.欢迎…

【WEB前端2024】3D智体编程:乔布斯3D纪念馆-第35课-3D互动教材

【WEB前端2024】3D智体编程:乔布斯3D纪念馆-第35课-3D互动教材 使用dtns.network德塔世界(开源的智体世界引擎),策划和设计《乔布斯超大型的开源3D纪念馆》的系列教程。dtns.network是一款主要由JavaScript编写的智体世界引擎&am…

LeetCode题练习与总结:填充每个节点的下一个右侧节点指针Ⅱ--117

一、题目描述 给定一个二叉树: struct Node {int val;Node *left;Node *right;Node *next; } 填充它的每个 next 指针,让这个指针指向其下一个右侧节点。如果找不到下一个右侧节点,则将 next 指针设置为 NULL 。 初始状态下,所…

第二十七章HTML.CSS综合案例

1.产品介绍 效果图如下&#xff1a; 代码部分如下&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0">…

计算机毕业设计Python+Spark新能源汽车推荐系统 汽车大数据 汽车数据分析 汽车可视化 汽车爬虫 大数据毕业设计 大数据毕设 知识图谱 深度学习

黄河交通学院本科毕业设计&#xff08;论文&#xff09;任务书 学院&#xff1a;智能工程学院 学生姓名 刘丹杰 专业班级 大数据20-1班 学号 2080910T01521 指导教师 炎士涛 职称 副教授 学位 硕士 题目名称 基于Hadoop的新能源汽车销售数据分析系统的设计与实现…

【Unity美术】spine软件的使用—2D动画的制作

&#x1f468;‍&#x1f4bb;个人主页&#xff1a;元宇宙-秩沅 &#x1f468;‍&#x1f4bb; hallo 欢迎 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! &#x1f468;‍&#x1f4bb; 本文由 秩沅 原创 &#x1f468;‍&#x1f4bb; 收录于专栏&#xff1a;就业…

群体优化算法---灰狼优化算法学习介绍以及在卷积神经网络训练上的应用

**长文预警**介绍 在自然界中&#xff0c;狼群的社会结构和捕猎策略展现了高度的智能和协调性&#xff0c;灰狼优化算法&#xff08;Grey Wolf Optimizer, GWO&#xff09;正是受此启发提出的一种群体智能优化算法。GWO主要模拟了灰狼的社会等级制度和捕猎行为&#xff0c;其核…

计算机毕业设计hadoop+spark+hive知识图谱音乐推荐系统 音乐数据分析可视化大屏 音乐爬虫 LSTM情感分析 大数据毕设 深度学习 机器学习

新余学院本科毕业设计(论文)开题报告 学 号 202253025 学生姓名 毛维星 届 别 24届 专 业 数据科学与大数据技术 指导教师 姓名及职称 潘诚 研究生 毕业设计 (论文)题目 基于HadoopSpark的音乐数据仓库的设计与实现 开 题 报 告 内 容 选题的依据…

使用Python操作Redis

大家好&#xff0c;在当今的互联网时代&#xff0c;随着数据量和用户量的爆发式增长&#xff0c;对于数据存储和处理的需求也日益增加。Redis作为一种高性能的键值存储数据库&#xff0c;以其快速的读写速度、丰富的数据结构支持和灵活的应用场景而备受青睐。本文将介绍Redis数…

加密经济浪潮:探索Web3对金融体系的颠覆

随着区块链技术的快速发展&#xff0c;加密经济正在成为全球金融领域的一股新的浪潮。而Web3作为下一代互联网的代表&#xff0c;以其去中心化、可编程的特性&#xff0c;正深刻影响着传统金融体系的格局和运作方式。本文将深入探讨加密经济对金融体系的颠覆&#xff0c;探索We…

C++数组实现推箱子游戏

前言 我是三天打鱼两天晒网的闲人,今天跟着课程视频学习c的数组的运用. 准备好游戏用到的图片资源 代码逻辑实现 #include<iostream> #include<graphics.h> #include<string> #include<conio.h>using namespace std;//设置画布大小 #define SCREEN…

kafka-守护启动

文章目录 1、kafka守护启动1.1、先启动zookeeper1.1.1、查看 zookeeper-server-start.sh 的地址1.1.2、查看 zookeeper.properties 的地址 1.2、查看 jps -l1.3、再启动kafka1.3.1、查看 kafka-server-start.sh 地址1.3.2、查看 server.properties 地址 1.4、再次查看 jps -l 1…

【python】OpenCV—Cartoonify and Portray

参考来自 使用PythonOpenCV将照片变成卡通照片 文章目录 1 卡通化codecv2.medianBlurcv2.adaptiveThresholdcv2.kmeanscv2.bilateralFilter 2 肖像画cv2.divide 1 卡通化 code import cv2 import numpy as npdef edge_mask(img, line_size, blur_value):gray cv2.cvtColor(…