Speech and Language Processing-导读

       朋友们,最近打算做一个大工程,我曾多次提过,chatgpt未来将是一股非常大的信息技术革命,有的人不以为然,或者国内很多企业好像并不是很重视,以我从业多年来的经验,chatgpt与之前的NLP技术有着较为本质的区别,从chatgpt开始,我愿意称程序员的编程语言为第四代编程语言,也就是没有过程,只需要告诉需求,就可以实现编程,这是一个伟大的突破,一旦第四代编程语言成型,纯程序员我觉得绝大部分会被替代为prompt设计师或者需求分析师。

       既然这次AI浪潮如此强大,我也想做点什么,想来想去,很多人对AI听说甚至自己干这行,但是对该行业的整个历史发展历程不够清楚,我经过寻找,找到了《Speech and Language Processing》这本书,打算把这本书整本都给大家解释,带读,希望能尽绵薄之力带你进入AI的世界。

正则表达式,文本规范化,编辑距离

上面是1966年由系统工程师约瑟夫·魏泽堡和精神病学家肯尼斯·科尔比在20 世纪60 年代共同编写的机器人ELIZA,是世界上第一个真正意义上的聊天机器人。 

是的,你没有看错,就是1966年,也就是如果你是90年左右出生的,大概是你的父亲那一辈,就已经有聊天机器人了,并且他是世界上第一个AutoRobot。

译文:上面的对话来自ELIZA,这是一个早期的自然语言处理系统,可以通过模仿Rogerian心理治疗师的反应与用户进行有限的对话(Weizenbaum, 1966)。ELIZA是一个非常简单的程序,它使用模式匹配来识别像“我需要X”这样的短语,并将它们转换成合适的输出,比如“如果你得到X对你意味着什么?”这个简单的技术在这个领域取得了成功,因为ELIZA实际上不需要知道任何东西来模仿罗杰斯式的心理治疗师。正如Weizenbaum所指出的,这是为数不多的对话类型之一,听众可以表现得好像他们对世界一无所知。Eliza对人类对话的模仿非常成功:许多与Eliza互动的人开始相信它真的理解他们和他们的问题,甚至在向他们解释了程序的操作之后,许多人仍然相信Eliza的能力(Weizenbaum, 1976),即使在今天,这样的聊天机器人仍然是一种有趣的娱乐。

       当然,现代会话代理不仅仅是一种消遣;他们可以回答问题,预订机票,或寻找餐馆,这些功能依赖于对用户意图的更复杂的理解,我们将在第26章看到。尽管如此,为ELIZA和其他聊天机器人提供动力的基于模式的简单方法在自然语言处理中发挥着至关重要的作用。

      我们将从描述文本模式的最重要的工具开始:正则表达式。正则表达式可以用来指定我们可能想要从文档中提取的字符串,从上面Eliza中转换“I need X”,到定义像$199或$24.99这样的字符串来从文档中提取价格表。

       所谓规范化文本,其实就是把原来的text转化为更加便利、标准的模式。

       分词是我们处理自然语言的第一个步骤,英文通常有天然的空格来区分不同的词,但是英文也有部分词语不能用空格去区分,对于日文和中文,则更没有空格去区分,这都是难点。

      文本规范化的另一部分是词根化,即确定两个单词具有相同的词根,尽管它们表面上存在差异。例如,单词sang, sung和sings都是动词sing的形式。sings这个词是这些词的共同根,将所有这些词映射成sings。词形化对于处理像阿拉伯语这样的形态复杂的语言是必不可少的。

      词干提取指的是一种更简单的词尾提取,我们主要是从词尾提取后缀。文本规范化还包括句子分割:使用句点或感叹号等线索将文本分解成单独的句子。最后,我们需要比较单词和其他字符串。

      我们将引入一个称为编辑距离的度量,它根据将一个字符串更改为另一个字符串所需的编辑(插入、删除、替换)次数来度量两个字符串的相似程度。编辑距离是一种应用于整个语言处理的算法,从拼写纠正到语音识别再到共同参考分辨率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/48502.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PDFgear——一款接入AI智能化模型的免费PDF聊天软件

目录 一、前言 二、产品介绍 2.1、PDFgear是什么? 2.2、PDFgear能做什么? 2.3、技术规格 三、产品安装 四、功能介绍 4.1、PDF聊天 4.1.1、支持和PDF进行聊天 4.1.2、支持上传多个PDF对话 4.1.3、始终保持会话不会丢失 4.1.4、完全免费和PD…

区块链技术在金融领域的应用与思考

ChatGPT狂飙160天,世界已经不是之前的样子。 新建了人工智能中文站https://ai.weoknow.com 每天给大家更新可用的国内可用chatGPT资源 一、区块链技术的特点及市场情况 区块链技术作为一种分布式记账技术,其最大的特点是去中心化。这意味着所有参与者可…

【CICC原创】面向智能博弈的决策Transformer方法综述

来源:中国指挥与控制学会 (《指挥与控制学报》刊文精选) 引用格式 罗俊仁, 张万鹏, 苏炯铭, 等. 面向智能博弈的决策 Transformer 方法综述 [J]. 指挥与控制学报, 2023, 9 (1) : 9-22. LUO J R, ZHANG W P, SU J M, e…

2023年4月的12篇AI论文推荐

GPT-4发布仅仅三周后,就已经随处可见了。本月的论文推荐除了GPT-4以外还包括、语言模型的应用、扩散模型、计算机视觉、视频生成、推荐系统和神经辐射场。 1、GPT-4 Technical Report Sbastien Bubeck, Varun Chandrasekaran, Ronen Eldan, Johannes Gehrke, Eric…

OpenAI API调用

上次简单写了一篇对ChatGPT的一些看法,最近想深入研究一下。 极客时间上有个课程《AI大模型之美》,看了一下还可以。当做入门是不错的,但还是有很多细节可以打磨,不过毕竟是在风口上的课,也能接受。 本次演示如何调用…

B+G双轮驱动,税友股份迎来数字化东风

配图来自Canva可画 不知不觉之间,国内的数字经济已经蔚然成潮。据相关部门的统计数据显示,去年国内数字经济规模已经达到了50万亿,占到了国内GDP总量的40%以上,增速更是持续领先于GDP增速。与此同时,随着数字中国战略…

Controller 层如何写才能简洁又优雅!

更多内容关注微信公众号:fullstack888 一个优秀的 Controller 层逻辑 说到 Controller,相信大家都不陌生,它可以很方便地对外提供数据接口。它的定位,我认为是不可或缺的配角。 说它不可或缺是因为无论是传统的三层架构还是现在的…

AI对话交互场景使用WebSocket建立H5客户端和服务端的信息实时双向通信

WebSocket使得客户端和服务器之间的数据交换变得更加简单,允许服务端主动向客户端推送数据。在WebSocket API中,浏览器和服务器只需要完成一次握手,两者之间就可以创建持久性的连接,并进行双向数据传输。 一、为什么需要 WebSock…

WorkPlus AI助理 | 将企业业务场景与ChatGPT结合

近年来,人工智能成为了企业数字化转型的热门话题,作为被训练的语言模型,ChatGPT具备模拟对话、回答问题、写代码、写小说、进行线上内容创作的能力,还能根据聊天的上下文进行互动。作为一款新兴的人工智能应用程序,对于…

用Python比较图片的不同

准备两张不同的图片 原图 修改后(在左下角增加了文字) 比较不同 使用PIL(Pillow library)库 安装 pip install pillow,然后直接用其中的ImageChops函数 from PIL import Image from PIL import ImageChops def comp…

对比两张图片的相似度

👨‍💻个人简介: 深度学习图像领域工作者 🎉总结链接: 链接中主要是个人工作的总结,每个链接都是一些常用demo,代码直接复制运行即可。包括: &am…

[274]用python对比两张图片的不同

from PIL import Image from PIL import ImageChops def compare_images(path_one, path_two, diff_save_location):"""比较图片,如果有不同则生成展示不同的图片参数一: path_one: 第一张图片的路径参数二: path_two: 第二张图片的路径参数三: diff…

怎么判断两张图片是否完全相同,通过读取图片内容进行对比

ep1: ep2: 实现原理: 通过读取图片,把图片转为base64后进行对比即可达到目的。 以下是图片转base64的方法: public string GetBase64StringByImage(Image img){string base64buffer string.Empty;try{if (img ! nul…

Python如何比较两张图片的相似度

前言 本文是该专栏的第21篇,后面会持续分享python的各种干货知识,值得关注。 工作上,可能会需要你对两张图片进行相似度比较。比如现在的图片验证码,需要你对两张图片进行比较,找出图中存在相似特征的地方或动作;再或是在做电商项目的时候,需要你对商品主图进行相似度比…

chatgpt赋能python:Python图片找不同的SEO文章

Python 图片找不同的SEO文章 在网上,图片找不同游戏是一种非常受欢迎的娱乐方式。但是,这些游戏经常需要手动比对两张图片,这是一项费时费力的任务。那么,有没有一种自动化的方法来找到这些不同之处呢? 答案是肯定的…

如何判断两张图片是否类似

如何判断两张图是否相似? 查到了很多算法,流程都是“特征提取”,“特征对比”。以下列出了三个常见算法的浅显的介绍, 平均哈希算法 平均哈希算法是三种Hash算法中最简单的一种,它通过下面几个步骤来获得图片的Hash值…

【图像】搜索相同,或者相似照片

目录 1. 查找完全相同的一对张照片 2. 查找相似照片, 1. 查找完全相同的一对张照片 利用MD5,变换找到两张一模一样的图片。 import cv2 import numpy as np import osimport json import os from hashlib import md5def getmd5(image_path, md5_path):…

go 图片相似 查找两张图片不同的部分 找出两幅图片中的不同处

golang Image similarity comparison 目前网上找了很多的 图片相似 查找两张图片不同的部分,实现图像比较和标记以显示不同 ,很多都是python写的,没有找到go语言写的,所以想自己写一个 图片A 为参照物,去寻找图片B 的…

元宇宙是个什么样的概念?

什么是元宇宙? 百度百科上提到: 元宇宙(Metaverse),是人类运用数字技术构建的,由现实世界映射或超越现实世界,可与现实世界交互的虚拟世界,具备新型社会体系的数字生活空间。 元宇…

最全元宇宙概念分析!元宇宙为何发展于区块链?

元宇宙,Web3 时代最新热词,和 NFT、DAO 等新晋热门概念一起在 2021 年横空出世。这一概念最早诞生于 1992 年的科幻小说《雪崩》,小说中描绘了一个庞大的虚拟现实世界,人们用数字化身来控制,并相互竞争以提高自己的地位…