从古板到智能:机器程序的华丽转身

因为 ChatGPT 的热潮,目前在恶补人工智能方面的知识。在某一篇文章的评论中,我看到了一个问题:“为什么 ChatGPT 能这么厉害,基本什么问题都能回答,如何做到的”

这也是我想问的问题,在初学编程的时候,我的计算机潘老师就在尝试用机器创作小说,我当时就在想,这玩意怎么可能呢?

现在 ChatGPT 出来了,我信了,只是希望老潘不要被打击到。

程序的古板

我们都知道,历来不管是程序员还是程序,基本都是死板的代名词。程序它是按照人类编写的指令来执行的,只会按照事先设定好的代码一步一步地执行。

我来举个例子:假如你有一台机器人可以听懂你的指令。你对它说:“帮我去桌子上拿个手机,如果你看到牛奶的话,也给我拿一杯。” 那么很有可能它只会按照指令,拿给我们手机或者牛奶。用简单的伪代码来描述,大概率就是:

if(在桌子上找到手机){拿起手机;返回手机;
} else if(在桌子上找到牛奶){拿起牛奶;把牛奶放在托盘上;给用户拿一杯牛奶;
} else {返回找不到物品信息;
}

通过上面的例子,我们可以看出来,机器人或者说程序是很难真正理解我们人类的语义的。那么为什么现在的人工智能语言大模型,比如文心一言、通义千问,却显得比人类更聪明呢?

这些语言大模型具有广博的知识储备,熟悉各种领域,精通逻辑思考、推理分析,简直可以说是可上九天揽月、下五洋捉鳖,基本没有什么是不会的。那么人工智能是如何实现的?

神经网络

在1948年,冯·诺依曼这个大佬提出了神经网络这个概念。他研究人脑结构和计算机存储的区别,提出了使用存储器计算,模拟人类的神经元,从而实现计算机的“自动思考”

既然神经网络模仿的是人类神经元,那么我们不妨先了解一下神经元是什么。通俗来说,神经元就像是一个由许多树枝组成的“爪子”,最终汇聚成一个结构。

这种结构的作用是通过多个输入,最终产生一个输出。就像当你去淘宝买商品时,通过该商品的价格、评价、外形等多个方面进行综合考虑,最终会产生一个决策,即是否进行购买

计算机所模拟的,就是这种结构,可以用数学模型来描述,如下图所示:

所以基于这种结构,通过数据投喂进行机器程序的学习,就能把这个程序转变成人工智能。等等,什么是训练学习

训练学习

你有没有想过一个问题,在你小时候,明明听不懂任何语言,也看不懂任何图片。但随着时间的流逝,你渐渐的可以听懂了,点头 Yes 摇头No,来是 Come 去是 Go,这其实就是训练学习了。

我再举一个例子,假设我有个儿子哈,只是假设。我拿了张卡片,就是下面的图片了。

我把卡片给他看,告诉他这是一只小猫。他记下了,这种样子的就叫做猫。后面有一天,我带他去小区花园里散步,结果有一只猫窜了出来,他指着喊猫猫。

你不觉得很奇怪吗,我是教过他认识卡片上的猫猫。但是窜出来的那只猫,他是第一次见,他是怎么分辨的出来的。这说明,她肯定是找到了猫身上的某些特征。具体是哪些特征呢?比如眼睛,皮肤或者鼻子。

想到了吗,人工智能的神经网络,起初全都是乱猜的。所以我们得不停的给这个算法程序提供样本数据,然后算法程序通过这些数据去训练,去学习,从已知的输入去计算结果的输出,最后得出结论。

那么它具体是怎么训练学习的呢?比如我们有一只铅笔,通过铅笔的长度和铅笔和材质硬度,就能判断这只铅笔是否合格。然后,我就建立一个数学模型公式:是否合格= (长度×10+材质硬度×5 > 30)

之后所有的铅笔进入合格程序检测的时候,首先先拿到每支铅笔长度和材质硬度这两个参数,然后按照上面的这个公式,计算出哪些铅笔是合格的,哪些是不合格的。

你有没有发现,这里有一个上帝视角的问题。因为我提前已经把这个公式的参数值列好了,计算机按照这个公式去判断就行。但是,计算机面对的是一组组混乱的数据,它不知道长度应该是 ×10 还是×100。

所以,计算机会首先随机生成这几个值,然后把训练的数据带进去,如果不对的话,再把这些值进行修改重试,直到找到合适的参数值。这也有点像算法程序员中的调参工程师了。

因为计算机的运行速度很快,如果是简单点的模型,很快就能训练好。但是像 ChatGPT 这样的模型,就不是一朝一夕能够完成的,需要依赖优秀的算法,海量的数据和算力了。这个具体下期讲。

到这里,我觉得我还是讲的挺明白了,人工智能通过神经网络,进行不停地学习,然后再利用数据的喂养进行不断矫正那几个参数值,最终实现了智慧。

图灵测试

你觉得人工智能产生了,你说了算吗?在程序测试中,有单元测试,集成测试等等。对于人工智能来说, 有图灵测试。

最早可追溯到20世纪30年代,当时的计算机科学家们就开始思考如何利用机器来模拟人类的思维过程。

直到1950年,艾伦·图灵提出了一种名为图灵测试的测验方法。就像我们要测试人是否聪明,可以考试或者面试一样,计算机也需要被测试。这个测试的目标是让计算机像人一样,能够回答一些问题并产生类似人类的交互。

想象一下,如果你和一台计算机同时进入了一个房间,然后还有一个评测员,他们不能看见你和计算机,只能通过和你们对话来判断谁是人类,谁是计算机。如果评测员认为计算机也能和人一样聊天,那么计算机就通过了图灵测试,证明它具有智能。

虽然图灵测试看起来简单,但是它背后涉及到了很多复杂的人工智能算法和自然语言处理技术。很多科学家都在不断地研究,希望让计算机更好地通过这个测试,不断地接近甚至超越人类的智能。

为什么现在才快速发展

这个问题其实从上面的介绍中已经说了。人工智能的发展离不开三个因素:算法、算力、数据。其中的算法其实很早就已经产生了,但是算力和数据不是你想有就有的。

就比如说人工智能训练的海量数据吧,拿GPT3.5来说,根据开发公司 OpenAI 的说法,GPT-3模型使用了数千亿个单词级别和字符级别的参数进行训练,而更恐怖的 GPT4 据说达到了3.5万亿。这些数据在早期基本提供不了。

另外再说算力,这就需要购买训练设备和机器,并且使用昂贵的 GPU 进行持续运算。大家都知道,GPU价格很高。

之前,国外某个大佬疯狂抢购了1万个GPU,耗资数亿人民币。但这些 GPU 还不一定足够使用。有些人问:“我不需要快速运算,不需要进行并行运算,我可以排个队吗?”

可以的!但是设备不足的情况下,会发生等待的情况。那需要等多久呢?比如说,用一块三五千元的普通GPU 训练 Dolly 2.0,每轮需要7.5个小时。10,000轮训练需要3125天,也就是8年半的时间。到最后,工程师们会说:“哎呦,不好意思,我们忘记加一个参数了,需要重新开始。”

如果企业这样持续下去,还能继续生存吗?不过,如果你使用集群的英伟达 A100,只需要几天就可以完成训练。不过价格有点小贵,一块A100,需要十万元,目前国内还买不到。

除了 GPU,你还得考虑资源问题,就跟当年比特币挖矿一样。你知道当初挖矿那帮人,用了四川多少电吗,

参考:https://juejin.cn/post/7230819482012663845

总结

通过上面的介绍,你应该知道为什么 ChatGPT 有这么牛逼了吧。优秀的算法,海量的数据和算力,才有了现在的 ChatGPT。所以有些不知道真相的国人,不要动不动就喷国内为什么没有 ChatGPT 这样的软件,这又不是小孩子过家家,再加上国内大厂的产品线太多,一时半会做不到 GPT 这么优秀很正常。

其实国内很早就在发展这方面的内容了,本来估计要过个几年才出的,现在因为 ChatGPT 的横空出世,发现了人工智能的可落地性,不得已加快了这方面的进程,才有了现在的通义千问,讯飞星火,给国内厂商一些时间吧。你看今天的 C919 不也民用首航成功了嘛。

关注《车辙的编程学习圈》,免费领取视频教程、电子书、面试攻略等海量资源。

image.png

关注《一纸匿名信》,在右侧菜单栏体验 ChatGPT,公众号私信【免费】,赠送一个月会员。

点赞、在看,下篇文章更精彩

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/44903.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CnOpenData数据产品入驻福建大数据交易所!

2022年7月,在福建省数据要素与数字生态大会上,福建省首个大数据交易所——福建大数据交易所正式揭牌成立。 CnOpenData于2022年12月成功入驻“福建大数据交易所门户网站”,与该司达成友好意向合作协议! 志同道合者为朋 意气相投…

Hadoop综合案例 - 聊天软件数据

目录 1、聊天软件数据分析案例需求2、基于Hive数仓实现需求开发2.1 建库2.2 建表2.3 加载数据2.4 ETL数据清洗2.5 需求指标统计---都很简单 3、FineBI实现可视化报表3.1 FineBI介绍3.2 FineBI配置数据3.3 构建可视化报表 1、聊天软件数据分析案例需求 MR速度慢—引入hive 背景…

十八家省级大数据管理局盘点

数据智能产业创新服务媒体 ——聚焦数智 改变商业 随着智慧城市的发展,各省市逐渐设立了大数据管理局,各部门之间的信息互通随之更加便捷。同时,当数据实现了互联互通之后,将更有效地利用和挖掘数据价值。如今,我国已…

大数据之------------数据中台

一、什么是数据中台 **数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。**数据中台的目标是让数据持续用起来,通过数据中台提供的工具、方法和运行机制,把数据变为一种服务能力,…

大数据平台

选型 大数据平台选型有三种选择: 1、使用云平台,优点是建设周期短、运维成本低,缺点费用贵、数据安全性; 2、使用商业化的大数据平台,优点搭建部署方便、稳定性好,缺点是成本高、不够灵活; …

国家数据局 VS 省级大数据局

来源:数据学堂 全文共 10672 个字,建议阅读 16 分钟 欢迎关注“谈数据”同名微信公众号,更多精彩等您来! 省级大数据局是新一轮机构改革中许多省份的“自选动作”,对完善地方政府数据治理体系意义重大。研究发现&am…

大数据平台功能

一 前言 计算机设备和信息数据的相互融合,对各个行业来说都是一次非常大的进步,已经渗入到工业、农业、商业、军事等领域,同时其大数据平台软件也得到一定发展。就目前来看,各类编程语言的发展、人工智能相关算法的应用、大数据时…

1028万!重庆统计局招标大数据平台,开建统计数据中台

2022年9月15日,重庆市统计大数据平台(CQS22C01140)发布中标(成交)结果公告,如下: 项目编号 CQS22C01140 项目名称 重庆市统计大数据平台 服务范围 大数据已成为新型生产要素和国家基础性战略资源,积极发挥政…

B2G最全的国内政务数据开放平台大汇总 数据驱动国计民生

数据是国家的战略性资源。政府部门在履行行政职能、管理社会公共事务的过程中采集和储存了大量数据,这些数据是社会的公共资源。 在保障国家秘密、商业秘密和个人隐私的前提下,如果将政府数据最大限度地开放出来,让社会进行充分融合和利用&a…

【大数据】中国省级大数据管理局

当下各级政府正在如火如荼地推进的智慧城市建设,大数据无疑更是关键中的关键。然而,从各地智慧城市、数字政府建设的具体实践来看,最大痛点和瓶颈也正是数据的匮乏。各地大数据匮乏的核心症结在于各级部门未能充分认识到大数据的重要性&#…

AllData一站式大数据平台【二】

1、机器学习算法平台ai-studio MLOPS-基于机器学习算法平台建设AllData MLOPS平台 2、AI算法应用市场ai-tasks 数据平台的人工智能引擎:AI算法驱动1、数据准备2、模型开发支持自定义与可视化模型开发3、训练和超参数调节4、模型服务5、模型调整和理解6、模型监控…

大数据_数据中台_数据汇聚联通

目录 一、数据采集、汇聚的方法和工具 1、线上行为采集 2、线下行为采集 3、互联网数据采集 4、内部数据汇聚 二、数据交换产品 1、数据源管理 2、离线数据交换 3、实时数据交换 三、数据存储的选择 1、在线与离线 2、OLTP与OLAP 3、存储技术 构建企业级的数据中台…

【企业微信】JS-SDK引入实现向企微群聊发送图文消息

一、需求 企业自建应用商城需要实现分享商品链接到群聊。&#xff08;标题/描述/图片/点击跳转商品链接H5详情页&#xff09;&#xff0c;API&#xff08;打开已有群聊并发送信息&#xff09;可实现企微文档 二、引入Js-sdk 方式一&#xff1a;链接引入 <script src"…

行业报告 | AI 赋能,人形机器人产业提速,把握产业链受益机会(上)

文 | BFT机器人 01 核心观点 核心观点: 人形机器人产业发展仍处于 0-1 阶段&#xff0c;当前行业投资逻辑偏向事件驱动型的主题投资&#xff0c;但可落地服务场景的人形机器人成长空间非常广阔&#xff0c;值得长期关注。本文将围绕以下热点问题作出讨论: D当前节点人形机器人产…

一周AIGC丨Meta 发布新一代开源大模型 Llama 2,大模型裁员潮不远了?

人们把Meta发布免费可商用版本 Llama 2比作“安卓时刻”&#xff0c;OpenAI护城河似乎一下子荡然无存&#xff0c;整个大模型市场格局面临巨变。据媒体报道&#xff0c;在以往&#xff0c;中国大模型公司可以靠商业授权赚钱利润&#xff0c;随着Llama 2开始允许商用&#xff0c…

寻寻觅觅,彩电厂商能否“智”取未来?

彩电业&#xff0c;还能不能好&#xff1f; 电视行业的发展&#xff0c;一直伴随着漫长的价格战。从黑白到彩电再到超大屏&#xff0c;从CRT到平板再到液晶&#xff0c;在每一轮技术革新之后&#xff0c;市场总会经历从落到起&#xff0c;从起到落的循环&#xff0c;然后陷入价…

Visualglm-6b

【官方教程】VisualGLM技术讲解_哔哩哔哩_bilibili报告文件下载: https://pan.baidu.com/s/1gfdpyfT6EVnygMPDO_iwvQ?pwd8wpc 提取码: 8wpcVisualGLM-6B 是一个开源的&#xff0c;支持图像、中文和英文的多模态对话语言模型&#xff0c;语言模型基于ChatGLM-6B&#xff0c;具有…

7月最新大模型排名!3700道保密试题、20个大模型参与评测|SuperCLUE

7月最新大模型排名&#xff01;3700道保密试题、20个大模型参与评测&#xff5c;SuperCLUE CLUE中文语言理解测评基准 中文通用大模型综合性评测基准SuperCLUE 2023年7月榜单 7月25日&#xff0c;SuperCLUE发布大模型7月榜单。 SuperCLUE: A Benchmark for Foundation Mo…

2022春招,算法岗最全面试攻略,吃透28个必问题直接速通大厂

算法是比较复杂又基础的学科&#xff0c;每个学编程的人都会学习大量的算法。而根据统计&#xff0c;以下这28个问题是面试中最容易遇到的&#xff0c;本文给出了一些基本答案&#xff0c;供算法方向工程师或对此感兴趣的程序员参考。 除了文章提到的这些题目之外我还整理了很多…

新鲜出炉的 NLP 算法岗社招面试经验分享

最近终于做好了选择&#xff0c;决定从杭州“搬迁”到了上海&#xff0c;一切安顿好之后&#xff0c;终于有功夫可以好好整理一下近期面试遇到的一些问题以及自己的一些小经验啦&#xff0c;希望对同样有跳槽需求的同行小伙伴们有些小小的帮助。 【注】文末提供面试技术交流群…