NLP 1、人工智能与NLP简介

人人都不看好你,可偏偏你最争气

                                        —— 24.11.26

一、AI和NLP的基本介绍

1.人工智能发展流程

弱人工智能 ——> 强人工智能 ——> 超人工智能

① 弱人工智能

人工智能算法只能在限定领域解决特定的问题

eg:特定场景下的文本分类、垂直领域下的对话、银行卡卡号识别

② 强人工智能

通用领域胜任人类所有的工作、一个模型处理不同工作

eg:各种大模型

③ 超人工智能

远超人类的智慧

目前AI技术的阶段:在弱人工智能与强人工智能发展间的阶段


2.人工智能 —— 研究方向

① 语音合成(TTS)

eg:语音播报能力、站点报时报点

② 语音识别(ASR)

说一句话将这段音频转为文字

eg:语音转文字

③ 字符识别(OCR)

从画面中识别一些特定的字符串、信息

eg:录入身份证/银行卡信息/违章识别

④ 机器翻译(MP)

自然语言处理的一种,将不同语言间进行翻译

eg:同声翻译

⑤ 图像识别(CV)

在一张图像中识别出具体的物体

eg:电商拍图搜索类似商品

⑥ 语义理解(NLU)

强大的语义理解,从文本中识别出具体语义

eg:对话机器人

⑦ 指纹识别(较为成熟)

通过指纹识别出不同的角色

⑧ 声纹识别(较为成熟)

通过声纹识别出不同的身份,而不用判断说的内容


3.人工智能、机器学习、深度学习间的关系

① 人工智能是一个较大的范畴

② 机器学习是实现人工智能的一种基本方法

③ 深度学习是机器学习的一个分支


4.人工智能(机器学习)—三驾马车

① 算法

② 算力(主要进步)

③ 数据(主要进步)


5.自然语言处理(NLP)

自然语言处理包含:语言学、数学、计算机科学三者交叉

自然语言处理的目标

① 人机交互

eg:问答搜索、闲聊回答、指令操作、机器翻译

辅助生活和工作,给生活带来便利,随着机器能力边界的提升其价值不断增加

② 数据分析/挖掘

eg:舆情分析、文本分类、知识抽取、命名实体识别

辅助决策和选择,给决策带来便利,随着数据量的增大和类别的增多其价值不断提升


二、算法行业介绍

1.算法相关的工作

Ⅰ 落地型

① 主要负责业务场景的算法落地,动手编程能力强

② 需要熟悉业务场景常见问题,极端情况的处理

③ 难点:小坑不断、需求改变、数据欠缺、效果不定

Ⅱ 研究型

① 主要负责发表论文及算法比赛等,理论知识扎实

② 研究内容可以脱离实际业务,在公开数据集上工作

③ 难点:需要创新思路、参加比赛获奖


2.项目人员构成

① 业务人员/甲方

一般是非程序员,根据业务场景需要,提出需求

② 产品经理

与业务对接、梳理需求,整理成开发的计划;或根据用户反馈等,提出自己的需求

③ 开发人员

人工智能方向一般大致分成算法开发工程开发,合作处理整个项目

④ 测试人员

专门进行测试,也可以进一步细分,一般也需要编程能力

⑤ 运维人员

机器维护人员,服务器和数据库的重启、扩容、缩容等操作由他们进行,同时负责监控服务运行的状况

⑥ Option(可选)

部署人员、数据标注人员、项目管理人员、平台维护人员


3.项目主要流程&算法开发职责

① 确认需求 —— 业务发起需求评审(进行沟通)

了解业务背景,以算法人员视角给出是否可行的意见

② 确认技术方案 —— 开发进行技术评审(算法方案+工程方案),根据需求制作方案

对问题的建模过程,需求转化为哪(几)种机器学习问题(或规则处理),需要哪些前置条件

③ 获取标注数据 —— 算法或业务提出数据需求

建立标注规范,校验数据格式,抽样评估效果 ,训练集验证集划分,搜索开源数据,购买数据

⭐④ 代码开发 —— 模型训练、功能开发

训练/预测代码开发,算法实验,对比效果

⑤ 测试 —— 测试用例评审

功能测试、效果测试、性能测试,开发可以自测,配合测试组发现的问题做修改

⑥ 部署上线/投入使用 —— 开发上线,测试验证,运维监控

每个公司使用框架情况有所差异,根据实际情况处理

⑦ 后续迭代 —— 业务提出需求

数据埋点、分析日志等


4.算法工程师需要的技能

① 编程能力

② 算法知识储备

③ 沟通和协作能力

④ 学习能力

⑤ 一定程度的英文功能

⑥ 使用搜索引擎/大模型的能力


5.NLP面临的困难

① 口吃系列、划分语义边界

例:

校长说衣服上除了校徽别别别的

过几天天天天气不好

骑车出门差点摔跤,还好我一把把把把住了

碳碳键键能能否否定定律一

来到杨过曾经生活过的地方,小龙女动情地说:“我也想过过过儿过过的生活。”

我背有点驼,麻麻说“你的背得背背背背佳“

② 分词系列、划分语义边界

例:

南京市长江大桥

一位友好的哥谭市民

乒乓球拍卖完了

③ 套娃系列、语言的递归性

例:

转发(自治区教育厅办公室关于转发教育部关于做好春夏季中小学生和幼儿安全工作的紧急通知》的通知》的通知

④ 同文歧义系列、常识认知、社会认知

例:

单身的原因有两个,一是谁都看不上,二是谁都看不上。

女孩给男朋友打电话:如果你到了,我还没到,你就等着吧;如果我到了,你还没到,你就等着吧。

冬天:能穿多少穿多少。夏天:能穿多少穿多少

⑤ 反话正说系列、语序和语义的关联

例:

屡败屡战 屡战屡败

情理之中意料之外 意料之外情理之中

情有可原罪无可恕 罪无可恕情有可原

 ⑥ 崩溃系列

例:

领导:你这是什么意思?

小明:没什么意思,意思意思。

领导:你这就不够意思了。

小明:小意思,小意思。

领导:你这人真有意思。

小明:其实也没有别的意思。

领导:那我就不好意思了。

小明:是我不好意思。

⑦ 英语系列

例:

Kids
Watching a Model Train
Normal People

Watching aModel Train

Software Engineers
Watching amodel Train

NLP对于机器来说很困难,本质上是因为对人来说它也很困难

对语言的理解要远远难于对一些有着明确规则任务的理解

语言本身具有创造性,在不同时代和背景下进行不断地更新迭代


三、人工智能和深度学习的发展历程

1.人工智能的发展

① 起步发展期

1950~1960,人工智能诞生

eg:机器定理证明、智能跳棋程序

② 反思发展期

1960~1970,任务失败,目标落空

eg:机器翻译,笑话百出、定理证明,发展乏力

③ 应用发展期

1970~1980,专家系统遍地开发,人工智能转向实用

eg:医疗专家系统、化学专家系统、地质专家系统

④ 低迷发展期

1980~1990,多项研究发展缓慢

eg:专家系统发展乏力、神经网络研究受阻

⑤ 稳步发展期

1990~2010,互联网推到人工智能不断创新和实用

eg、深蓝战胜国际象棋冠军、IBM提出智慧地球、我国提出感知中国

⑥ 蓬勃发展期

2010至今,深度学习和大数据兴起带来了人工智能的爆发

物联网、云计算、大数据


2.NLP的发展历程

图灵测试 —— 如何判断机器是否拥有智能

1950年提出,是图灵的个人观点,并非当前业界的追求

测试方法

让机器人冒充人,与人展开对话,如果有超过30%的人误以为在是人类在和自己对话而非计算机,那就可以认为这台机器拥有人类智能


3.NLP的发展现状

① 深度学习大幅改变了NLP研究,极大地推进了NLP技术的发展

② NLP技术已经深入生活的各个角落,输入法(提示输入词)、语音助手、搜索引擎(浏览器,用相关文字查找到有关的网页)、智能客服(智能电话)等大量依赖NLP技术的应用已经被推广和使用

③ 大语言模型的强大理解能力,让人们看到了强人工智能的曙光


四、一些NLP常用的工具和框架介绍

1.编译器

Pycharm、VSCode

2.机器学习相关python框架

① Tensorflow

工程配套完善

② Pytorch

调试方便,目前的主流

③ Keras

高级封装,简单好用,现已和Tensorflow合体

④ Gensim

训练词向量常用

⑤ Sklearn

大量机器学习算法,如逻辑回归、决策树、支持向量机、随机森林、KMeans等等,同时具有数据集划分和各种评价指标的实现

⑥ Numpy

各种向量矩阵操作

多多调用库进行代码编写

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/479074.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于混合ABC和A*算法复现

基于混合ABC和A*算法复现 一、背景介绍二、算法原理(一)A*算法原理(二)人工蜂群算法原理(三)混合ABC和A*算法策略 三、代码实现(一)数据准备(二)关键函数实现…

解决SpringBoot连接Websocket报:请求路径 404 No static resource websocket.

问题发现 最近在工作中用到了WebSocket进行前后端的消息通信,后端代码编写完后,测试一下是否连接成功,发现报No static resource websocket.,看这个错貌似将接口变成了静态资源来访问了,第一时间觉得是端点没有注册成…

VITE+VUE3+TS环境搭建

前言(与搭建项目无关): 可以安装一个node管理工具,比如nvm,这样可以顺畅的切换vue2和vue3项目,以免出现项目跑不起来的窘境。我使用的nvm,当前node 22.11.0 目录 搭建项目 添加状态管理库&…

红外小目标检测

目录 背景概述算法原理演示效果核心逻辑 使用方式基础镜像配置环境直接运行 参考文献 文章声明,非广告,仅个人体验。 背景 红外图像在许多领域中都有所应用。例如军事领域中,经常需要通过红外成像设备对远距离的目标进行侦察和监视&#xff…

【滑动窗口】找到字符串中所有字母异位词

文章目录 找到字符串中所有字母异位词 class Solution { public:vector<int> findAnagrams(string s, string p) {vector<int> ret;int sLen s.size(), pLen p.size(), validChar;// 母串长度比子串长度还小 直接返回空vectorif (sLen < pLen)return ret;// …

nodepad配置c/c++ cmd快速打开创建项目文件

前提:下载MinGw,并且配置环境变量 点击阅读次篇文章配置MinGw 无论是哪个编译器&#xff0c;执行c文件都是经历以下步骤: 编译文件生成exe文件执行该exe文件 我们先手动完成这两部 手动编译文件使用指令 gcc {你的c文件} -o {生成文件名}生成exe文件 第二步运行exe直接点击该文…

Opencv+ROS实现颜色识别应用

目录 一、工具 二、原理 概念 本质 三、实践 添加发布话题 主要代码 四、成果 五、总结 一、工具 opencvros ubuntu18.04 摄像头 二、原理 概念 彩色图像&#xff1a;RGB&#xff08;红&#xff0c;绿&#xff0c;蓝&#xff09; HSV图像&#xff1a;H&#xff0…

Vue.Draggable使用nested-with-vmodel进行拖拽

Vue.Draggable使用nested-with-vmodel进行拖拽 1. 介绍 ‌draggable‌是一个基于Sortable.js的Vue组件&#xff0c;用于实现拖拽功能。它支持触摸设备、拖拽和选择文本、智能滚动、不同列表之间的拖拽等功能&#xff0c;并且与Vue的视图模型同步刷新&#xff0c;兼容Vue2的过…

【湿度数据处理】中国地面气候资料日值数据集(V3.0)(MATLAB全代码)

【湿度数据处理】中国地面气候资料日值数据集 处理1:数据范围筛选处理2:缺测数据筛查处理3:缺测数据插补参考基于此博客完成各要素数据提取后-【数据集处理】中国地面气候资料日值数据集(V3.0)(含MATLAB全代码),进行后续数据筛选及缺测处理,此处以湿度数据为例。 提取到的…

vulnhub靶场之corrosion靶场1

corrosion靶场1 前言 靶机&#xff1a;corrosion靶场1 攻击&#xff1a;kali 主机发现 使用arp-scan -l发现主机IP&#xff0c;这里直接查看虚拟机需要登录&#xff0c;不过官方并没有提供密码&#xff0c;所以&#xff0c;扫描出IP地址 信息收集 使用nmap查看端口及服务…

代码随想录算法训练营day46|动态规划09

买卖股票的最佳时机四 之前是最多只能完成两笔交易&#xff0c;现在是至多可以买卖k次&#xff0c;那么状态数需要定为2*k1种&#xff0c;此时&#xff0c;就要分析多种情况的递推式 找到奇偶数交替的规则即可 class Solution { public:int maxProfit(int k, vector<int&g…

前端-Git

一.基本概念 Git版本控制系统时一个分布式系统&#xff0c;是用来保存工程源代码历史状态的命令行工具 简单来说Git的作用就是版本管理工具。 Git的应用场景&#xff1a;多人开发管理代码&#xff1b;异地开发&#xff0c;版本管理&#xff0c;版本回滚。 Git 的三个区域&a…

【软件介绍】变声工具RVC本地部署使用方法

RVC&#xff08;Real-Time Voice Conversion&#xff09;软件是一种能够实现实时声音转换的技术工具&#xff0c;它允许用户改变自己或他人的语音特征&#xff0c;比如音调、音色等&#xff0c;以达到变声的效果。这种技术在娱乐、游戏、内容创作等领域有着广泛的应用。下面是一…

IntelliJ IDEA 中,自动导包功能

在 IntelliJ IDEA 中&#xff0c;自动导包功能可以极大地提高开发效率&#xff0c;减少手动导入包所带来的繁琐和错误。以下是如何在 IntelliJ IDEA 中设置和使用自动导包功能的详细步骤&#xff1a; 一、设置自动导包 打开 IntelliJ IDEA&#xff1a; 启动 IntelliJ IDEA 并打…

【CANOE】【Capl】【RS232】控制串口设备

系列文章目录 内置函数&#xff0c;来控制传统的串口设备&#xff0c;比如继电器等 文章目录 系列文章目录前言一、控制串口二、自定义相关的参数RS232Configure**函数语法****函数功能****参数说明****返回值****示例代码** 三、回调函数的使用RS232OnSend**函数语法****函数…

AX58100+STM32使用FSMC接口,运行EtherCAT Slave协议栈

目录 简介环境硬件接线MCU一侧的初始化时钟FSMC外部中断timer 协议栈生成EtherCAT SlaveSlave infomationgenerichardwareEtherCAT State MachineSynchronisationApplicaitonProcessDataMailbox OD TOOL 协议栈移植协议栈集成和错误初步解决启动协议栈 应用开发集成到TWINCAT集…

IC数字后端实现之大厂IC笔试真题(经典时序计算和时序分析题)

今天小编给大家分享下每年IC秋招春招必考题目——静态时序分析时序分析题。 数字IC后端笔试面试题库 | 经典时序Timing计算题 时序分析题1&#xff1a; 给定如下图所示的timing report&#xff0c;请回答一下几个问题。 1&#xff09;这是一条setup还是hold的timing report?…

嵌入式系统与OpenCV

目录 一、OpenCV 简介 二、嵌入式 OpenCV 的安装方法 1. Ubuntu 系统下的安装 2. 嵌入式 ARM 系统中的安装 3. Windows10 和树莓派系统下的安装 三、嵌入式 OpenCV 的性能优化 1. 介绍嵌入式平台上对 OpenCV 进行优化的必要性。 2. 利用嵌入式开发工具&#xff0c;如优…

英伟达发布 Edify 3D 生成模型,可以在两分钟内生成详细的、可用于生产的 3D 资源、生成有组织的 UV 贴图、4K 纹理和 PBR 材质。

英伟达发布 Edify 3D 生成模型&#xff0c;可以利用 Agents 自动判断提示词场景中需要的模型&#xff0c;生成后将他们组合为一个场景。 Edify 3D 可以在两分钟内生成详细的、可用于生产的 3D 资源、生成有组织的 UV 贴图、4K 纹理和 PBR 材质。 相关链接 论文&#xff1a;htt…

抖音短视频矩阵源代码部署搭建流程

抖音短视频矩阵源代码部署搭建流程 1. 硬件准备 需确保具备一台性能足够的服务器或云主机。这些硬件设施应当拥有充足的计算和存储能力&#xff0c;以便支持抖音短视频矩阵系统的稳定运行。 2. 操作系统安装 在选定的服务器或云主机上安装适合的操作系统是关键步骤之一。推…