OpenAI 直播大秀语音指挥 AI 自动编程

本文转载自IT之家

刚刚,OpenAI 又玩出了一个新高度。

只输入自然语句,AI 就自动做了个小游戏!

划重点:不! 用! 你! 编! 程!

来,感受一下这个 feel。

第一步,“小人儿”搞里头,输入一句话就能让它按照方向键左右移动:

Now make it controllable with the left and right arrow keys.

AI 在理解了需求之后,自动编程,然后小人儿就真的可以左右移动了。

第二步,“石头”搞里头,同样输入一句话,让它“从天而降”:

Now have it fall from the sky, and wrap around.

第三步,用自然语言简单再制定些规则,若小人儿被石头砸中则终止游戏。

Constantly check if the person and the boulder overlap at all, and if so, you lose.

最后还让 AI 生成结束提示,其中要包括一句鼓励人的话。

AI 挑中的是“Try Again!”

当然,还有规则更复杂的小游戏(例如增加计分等功能),也可以用同样的方式,分分钟生成:

这是魔法吧!现在开发小游戏都靠“打字”了?!

围观直播的观众们,也是发出了同样的感慨,瞧瞧这满屏止不住的弹幕:

有网友甚至直呼道:

编程,已经变成 AI 自己的游戏了。

这就是 OpenAI 重磅发布的新品 ——Codex,一个能自己编程的 AI。

AI 编程这事并不新鲜了,像 GitHub 前不久闹得风风火火的 Copilot,就是其中一个。

但它背后的技术,其实还是来自于 OpenAI。

然而这一次,OpenAI 给自己的能力升了个级,来了个新版本。

不仅如此,搞一个小游戏,仅仅是 Codex 能力的冰山一角罢了。

一起感受一下它更多惊艳的表现吧。

不用打字,直接语音命令它!

给 AI 打字“提需求”,还是略显麻烦了一些。

能不能直接说话下达命令呢?

这个还真可以有!

OpenAI 这次与微软合作出了一个 Word 插件,便带了这种语音控制的功能。

直接对着 AI 下命令“把每行开头的空格去掉”,AI 通过微软给的接口一顿操作,成功执行:

啪的一下,全文就左对齐了有木有。

而且 AI 还精准地理解了命令的含义,那些段与段之间的空行并没有改动。

来再复杂一点的。

给 AI 下达“每数到五行就加粗”命令,也是能轻松 hold 得住:

这种把任务吩咐下去,就有“人”给你完成的感觉,是不是很像老员工指挥实习生?

总之呢,是比罗永浩前几年发布的 TNT 系统语音办公要强上那么“亿”点点了。

除了官方的演示,这次内测用户 aniakubow,还让 AI 表演了通过 152 字描述生成一个网页。

可以看出这里 Codex 是用 Javascript 操作 Document 对象来生成网页,可能是训练集里没有直接的 HTML 代码的缘故吧。

最后,除了现场演示外,OpenAI 还在 Arxiv 上发布了 Codex 的论文预印版。

论文中,Codex 要面对的挑战甚至有刷 IOI 和 ACM 难度的竞赛题!

Codex 用对每道题生成 1000 种答案这种暴力方法,能做出 600 多道竞赛题测试集中的 3.23%,并且通过全部的测试用例。

这个编程题目测试集是 UC 伯克利研究人员在 5 月份刚刚做好的。

当时测试的 GPT-2、GPT-3 和开源的 GPT-Neo 可是在竞赛难度上全军覆没,一道都没做出来。

没想到短短两个多月,专为代码而生的 Codex 就为前辈们洗刷了耻辱。

Codex 的“魔法”,是如何实现的?

这么炫酷的能力,莫非还是像 GPT-3 一样堆数据,大力出奇迹吗?

不全是,这次 Codex 最大的一个版本是 120 亿参数,比起 GPT-3 的 1750 亿还是小了很多。

要了解具体情况,还要从它的开发历程说起。

最早,OpenAI 研究人员拿 GPT-3 做各种试验,发现 GPT-3 能从 Python 注释中生成一些简单的代码。

这可把他们高兴坏了,因为 GPT-3 根本没特意拿代码训练过,只是看过一些博客和帖子中零星的代码片段。

想想 GPT-3 在自然语言上的出色表现,要是专门训练一个代码版的 GPT-3,那肯定也能再次震惊业界。

于是,他们找到了 GitHub,这个拥有最多开源代码的“小伙伴”来合作。

一开始是拿到了 179G 的 Python 代码,但其中不乏存在一些篇幅太长的,以及明显是自动生成的那种。

在剔除掉这些“不达标”的代码后,最后留下的代码大小为 159G。

接下来当然是做预训练,把这些代码都喂给 AI (Codex)。

不过这里有一个问题:

GitHub 上的开源代码难免会有 Bug,AI 学了一堆有问题的代码可咋办?

其实这倒也好说,预训练之后不是还要微调嘛。

微调的时候,全用编程竞赛里的正确答案,以及 PyPI 里的靠谱开源代码就可以了。

最后,120 亿参数版的 Codex,能对 28.81% 的问题给出正确答案。

这个准确率超过之前的开源代码预训练模型 GPT-Neo 和 GPT-J,还有基于 GPT-2 的代码补全工具 TabNine。

这个成绩虽然不错,不过离能实际应用还是有点远了。

不过,这也难不住 OpenAI 的研究团队。

他们很快便想到了“突破口”:

人类编程的时候,不也经常先出一个版本,然后反复修改 bug 嘛~

那就让 AI 像人一样反复修改,改出 100 个版本来,从中总能挑出几个正确的来。

用上这种拿“量”堆出来的方法,Codex 的最终成绩是:

77.5%!

强,但不完全强

Codex 令人惊艳的表现,一度让网友们大呼:

要失业了要失业了!

有人直接在公屏上打出:再见了,计算机专业的学子们。

不过大家也不必如此担心,因为在演示过程中,其实就出现了翻车的情况。

在输入“Say Hello World with empathy”后,Codex 给出的结果居然还是“Hello World with empathy”。

这也侧面说明了 Codex 现在还不是完美的。

OpenAI 就表示:

即便是参数达到 120 亿的 Codex 12B,它的能力可能也还不如一位编程刚刚入门的学生。

虽然 Codex 学习上亿行代码,但它更大程度是“记住了”这些代码,并不是真正意义上的懂编程语言。

而且 Codex 对长字符串的理解也比较困难。

并且随着字符数量的增加,Codex 的性能表现下降得非常明显。

在这种情况下,Codex 就不能很好地理解用户的意图,结果可想而知,给出的代码可能就是完全错误的了。

此外,在理解变量和运算较多的注释时,Codex 也会犯错:

在这个例子中,120 亿参数版的 Codex,忘记了对变量 w 做减法,也没有返回所有数字的乘积。

这些对于还在学习编程的新手程序员而言,非常不友好。

而且由于生成的代码准确性和正确性都还不能保证,因此在安全问题上也存在一定风险。

不仅如此,OpenAI 还表示,Codex 会生成带有种族歧视的内容。

在社会层面上,OpenAI 还提出 Codex 的出现或许会冲击程序员的就业;如果被滥用,还有网络犯罪方面的隐患。

最后还有一点,就是环境方面的问题。

毕竟它作为大模型,参数量的规模不容小觑。

要不是合作方微软 Azure 云买了足够多的碳排放限度,Codex 可能还不能和我们见面呢(手动狗头)。

如果想要试玩的话,OpenAI 还准备了一个 Python 编程大赛,在这场比赛中 Codex 会作为你的搭档和你一同解题。

比赛将于北京时间 8 月 13 日凌晨一点开始,就是这时间对国内不太友好。

大赛报名地址:

https://openai.com/blog/openai-codex/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/69028.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

直播预告 | 腾讯云工业AI系列直播

随着工业革命的不断推进,人工智能等新技术新理念在各行业兴起。同时,各行业也逐步向数字化、智能化、自动化转型,进入现代化工业新阶段。 工业质检是整个制造中一个非常重要的环节,但工业AI质检的有效落地是我们面临的一个巨大挑…

Steam教育对儿童在幼儿园阶段概念理解

孩子对有关科学领域的探究和学习,往往受到好奇心和兴趣的直接驱使,少儿编程就是从这一点出发,来培养孩子的科学思维与能力的。具体而言,少儿编程是怎样助力培养孩子的科学素养呢? 增强孩子处理信息的能力。现实中充斥着…

聚观早报 | 推特临时培训员工应对世界杯;世界杯足球内置传感器

今日要闻:推特临时培训员工应对世界杯;京东靠降本增效实现转亏为盈;世界杯足球内置传感器;艾格重返迪士尼CEO职位;特斯拉明年或开启收购计划 推特临时培训员工应对世界杯 据消息, 2022年世界杯拉开帷幕,推特的使用量即将激增,其…

Chrome浏览器模拟微信客户端访问网址,方法图文讲解模拟微信

我们访问有的网址,网址里限制了只能微信客户端访问才能打开,要不然就打不开或者跳转到其他页面去了。 下面图文并茂的讲解下怎么用 Chrome 模拟微信UserAgent。 0x0、打开Chrome控制台 打开控制台快捷键在Chrome下Windows系统按下F12,Ma…

2021高考成绩查询数学和物理,2021湖南高考物理这么难真的好吗?全国数学卷简单,谁会是赢家?...

相信很多湖南省高考考生的家长已经感受到了孩子考完物理后的情绪低落了,原因是湖南省今年的高考物理试题比较难。在考完全国统一的数学科目后,普遍反映说数学简单,而物理却非常难。在这种情况下,会影响高考录取吗?什么…

食(实)用刷题方法和只因(技)巧,让你做一个合格的卷王。真的不进来看看?

Hello,这里是君兮,由于最近学业繁忙技术类博客的更新可能要停滞一段时间了,今天给大家分享一下我的刷题方法和技巧,保证你刷一遍的题顶别人刷两遍。尤其是初学者要认真看哦。 君兮_的个人主页 勤时当勉励 岁月不待人 C/C 游戏开发…

啥?简单的题都不会,可咋整呢?

目录 一、寻找原因二、寻找解决方法三、常见的刷题网站刷题技巧 明明自觉学会了不少知识,可真正开始做题时,却还是出现了“一支笔,一双手,一道力扣(Leetcode)做一宿”的窘境?你是否也有过这样的…

靠刷题考进了清华?学霸告诉你答案

http://www.sohu.com/a/227559664_100116835 大家好!我是北大在读博士邱崇,最近好多学弟学妹向我询问有没有实用的学习方法,于是今天我邀请到我的一位好友,向大家分享他的刷题大法,绝对实用,有效果&#xf…

新高考不选物理可以学计算机吗,新高考仅选物理就可以读计算机类专业了吗?(以广东为例)...

原标题:新高考仅选物理就可以读计算机类专业了吗?(以广东为例) 计算机类专业不仅是各大高校的热门专业,在今年的求职行业榜单中也位列第一,同时是各大企业竞相需要的专业人才。因此,对于从2018年启动新高考的广东省来说…

让AI来做 2023高考数理化考题,能比顶尖的考生做得强吗?

AI在某些方面可以比人类更快、更准确地完成任务,但在某些方面也存在局限性。对于高考理科题,AI可能会在计算和逻辑推理方面表现出色,但在理解和解释问题、判断和评估信息等方面可能不如人类。因此,AI可能会在某些题目上表现出色&a…

新高考没有选物理可以学计算机专业吗,高考选科是不是物理特别重要?新高考没有选物理是不是完了?...

选择科目 测一测我能上哪些大学 选择科目 领取你的专属报告 > 选择省份 关闭 请选择科目 确定 v> 众所周知,选科是我国新高考中最重要的事情之一,且涉及到了很多选考科目。其中,要数物理的话题性相对最强。那么,高考选科是不…

Android 第三方应用接入微信平台(1)

关键字:微信开放平台 Android第三方应用接入微信 微信平台开放后倒是挺火的,许多第三方应用都想试下接入微信这个平台, 毕竟可以利用微信建立起来的关系链来拓展自己的应用还是挺不错的,可 以节约很多在社交方面的开销&#x…

港股上市公司的中报翻译工作

根据国家有关规定,上市公司必须披露定期报告,也就是公司业绩。定期报告包括年度报告、中期报告、第一季报、第三季报。年度报告由上市公司在每个会计年度结束之日起4个月内编制完成(即一至四月份),中期报告由上市公司在半年度结束后两个月内完…

基于java+jsp的大学生心理健康网站

心理健康网是基于java语言将IT技术用于心理健康信息的管理, 协助大学生开展心理健康工作提高工作效率。系统使用Myeclipse开发,数据库同时支持sqlserver,mysql,资料有开题报告,毕业论文,源代码程序等.可以做适用于大学生毕业设计参考使用. 系统主要可分为以下几个模块&#xf…

微信小程序的大学生心理健康调查系统

管理员服务端(网页实现):首页、个人中心、用户管理、咨询师管理、心理书籍管理、相关资源管理、试卷管理、试题管理(选择题和判断题)、系统管理、书籍订单管理。在个人中心页面中,可以修改当前用户的密码用…

心理健康网站

开发工具(eclipse/idea/vscode等): 数据库(sqlite/mysql/sqlserver等): 功能模块(请用文字描述,至少200字): 网站前台:关于我们、联系信息、文章信息、服务信息、测试信息 管理员功能: 1、管理关于我们、联…

《心理学报》的《大学生学习适应量表》能用吗?

《心理学报》是我国心理学专业的权威期刊,偶然在上面看到西南大学冯廷勇等学者发表的《大学生学习适应量表的编制》一文,看完之后真是对此学报的水平感到遗憾,不知道为何这样不严谨的文章也能发表出来。个人愚见,挑出几个问题与大…

基于微信小程序的大学生心理健康调查系统

开发工具(eclipse/idea/vscode等):idea 数据库(sqlite/mysql/sqlserver等):mysql 功能模块(请用文字描述,至少200字):管理员服务端(网页实现):首页、个人中心、用户管理、咨询师管理、心理书籍管…

心理健康蓝皮书《中国国民心理健康发展报告2022》

1、2022年国民心理健康调查报告:现状、影响因素与服务状况 2、2022年中国青少年心理健康状况调查报告 3、2022年中国大学生心理健康状况调查报告 4、2022年中国中小学教师心理健康状况调查报告 5、2022年中国心理咨询工作者职业状况与心理健康状况调查报告 6、…

基于web的大学生心理健康咨询管理系统

:1、网站前台模块包括如下效果及功能: (1)网站首页:首页(导航、轮播、布局) (2)网站子页:子页面设计 (3)导航条:每个导航条…