在一篇由 GPT-3 生成的论文中,ChatGPT 重现了图灵测试的原始论文

2a757e5ea63ef1a375d270b35b0df385.png

来源:AI科技评论

本文约8100字,建议阅读15分钟

ChatGPT 的论文写作能力高过图灵,还骗过了 AI 写作评分工具。

45013b406ec8597d678fd5be06605cc2.jpeg

以 ChatGPT 为代表的文本生成的兴起,正促使许多研究人员寻求一个比原始版本更具挑战性的图灵测试。

图灵测试解决两个问题:“机器可以思考吗?如果可以,如何证明它?”经典图灵测试针对的是 AI 最棘手的目标之一:如何欺骗不知情的人类?但随着当前语言模型变得越来越复杂,与 AI 如何欺骗人类相比,研究人员开始更关注“如何证明它?”的问题。

有观点认为,现代的图灵测试应当在科学的环境中证明语言模型的能力,而不是仅仅看语言模型是否能够愚弄或模仿人类。

最近有项研究就重新审视了经典图灵测试,并将图灵在 1950 年所著论文的内容作为 prompt,使用 ChatGPT 生成了一份更可信的论文版本,来评估它的语言理解和生成能力。在使用 AI 写作辅助工具 Grammarly 进行定量评分后发现,ChatGPT 生成的论文得分比图灵原始论文高出 14%。有趣的是,该项研究所发表的论文部分内容是由 GPT-3 生成的。

b73d49bc0c4b1dfde92eb17d483ae691.png

论文地址:

https://arxiv.org/ftp/arxiv/papers/2212/2212.06721.pdf

然而,ChatGPT 的算法是否真的展示了图灵的最初观点,这仍然是个问号。尤其是,当下越来越擅长模仿人类语言的大型语言模型,很容易让人产生它们具有“信念”、能够“推理”的错觉,这会阻碍我们以更可信、更安全的方式部署这些 AI 系统。

1、图灵测试的演变

1950年版本的图灵测试是问答形式。图灵在论文中模拟了未来智能计算机的测试,如下图所示的一个算术问题:34957 加 70764 等于多少?

cd3e5ae88873038c754bbec5f64be232.png

图注:ChatGPT 的问答序列,当中答案正确,问题来自图灵 1950 年论文

这个问题曾使当时最好的语言模型如 GPT‑2 失手。然而讽刺的是,在当时,图灵的论文(人类版本)给出了一个错误答案:(停顿约30秒,然后给出答案)105621。即使存在机器为了通过图灵测试而故意犯错的可能性,五分钟的对话仍让裁判人员相信,计算机30%以上的时间是人为操控的。

自1950年以来,图灵测试出现了许多改进,包括2014年一项著名的测试,称为“Lovelace 2.0 测试”。Lovelace 2.0 测试的标准是,机器可以在艺术、文学或任何类似创造性飞跃中创造出具有代表性的例子。

2014年,一个名为 Eugene Goostman 的聊天机器人模拟了一位13岁的乌克兰男孩,成功欺骗了 33% 的裁判人员,被认为是第一个通过图灵测试的机器。

0316b2f060a3c8797af68ee7b50b75e7.png

但批评者很快注意到了预定义的问题和主题,以及仅使用键盘敲击的简短格式,这意味着该图灵测试的结果是不可靠的。

2018 年,谷歌 CEO Sundar Pichai 在一段视频中介绍了他们最新的名为 Duplex 的计算机助手,该机器成功实现了美发沙龙预约,成为人们在不知不觉中同机器互动的一部分。虽然正式通过图灵测试可能需要多种形式,但 The Big Think 得出结论:“迄今为止,还没有计算机明确通过图灵 AI 测试”。其他研究人员也重申了所有这些问题是否值得被探讨,其中特别考虑到目前大型语言模型在大量场景中的应用,比如航空工程的文本并没有将其领域的目标定义为“制造出的飞行器要与鸽子完全一样,并骗过其他鸽子”。

2、使用 ChatGPT 生成

更可信的图灵测试

在 PeopleTec 的一项研究中,作者将图灵测试的原始论文内容作为 prompt,让 ChatGPT 重新生成一个更具可信性度的论文版本,并使用写作评估工具进行评估。

此前已经有使用 GPT‑3模型早期版本撰写和发表完全由机器撰写的研究论文的工作。识别机器所生成的叙述,对机器生成文本的抱怨通常源于已知的模型缺陷,例如容易丢失上下文、退化为重复或胡言乱语、答案形式重述问题,以及在被难住时抄袭互联网资源。

这里要生成的论文格式主要执行几个常规的大型语言模型(Large Language Model,LLM )任务,特别是文本摘要和使用图灵问题作为 prompt 本身来生成原始内容。另外,作者使用 Grammarly  Pro 工具来评估生成的内容,对论文的原创性、风格、清晰度和整体说服力等难以表征的特征进行定量评估。

这项工作更多地侧重于图灵挑战的后半部分,不是关于模型如何欺骗人类,而更多是关于如何量化好的文本生成。因此,OpenAI 的努力所展示的部分显著进步归结为它以提高人类生产力的方式改进机器衍生对话的能力。

作者首先用 Grammarly 来评估图灵的原始论文、得出各项分数,然后使用图灵提出的测试问题作为 prompt 来创造原始的 GPT-3 内容,从而复制这些分数。

研究使用三个文本作为基准:

  1. Turing Original,图灵 1950 年在 Mind 上发表的论文;2

  2. Turing Summarization,2022 年“Free Research Preview: ChatGPT optimized for dialog”;

  3. Turing Generative Prompt,与(2)相同,但是使用图灵问题在对话中生成。

每个文本块输出都为可为 Grammarly 指标提供数据,并设定了基于受:专家;形式:中性;领域:一般。当中应用大多数语法规则和约定,具有中等严格性。

这样一个图灵测试,其实也可验证一个欺骗性任务:一台机器(ChatGPT)可以欺骗另一台机器(Grammarly)吗?

325b8d23fbf1e5a95115d615a7d6f358.png

图注:用于对大型语言模型和图灵论文进行评分的指标

图灵 1950 年的原始论文提出了用于图灵测试的 37 个问题,当中有针对他思考关于机器的中心主题,还有一些是向实验模仿游戏的计算机提出的示例问题。研究人员在 ChatGPT 的对话框中,将论文大纲中的主题混合在一起后摘录了这些问题,用来提示 ChatGPT 重现原始的基本内容。

ChatGPT 完成内容的生成后,在可读性、正确性、清晰性等指标上与图灵的原始论文进行比较,结果如下图。

7392bc2825fd3019293665de993d5fc2.png

图注:图灵 1950 年的论文与 ChatGPT 生成论文在各种任务中的比较结果

在清晰性(“有点不清楚”)、参与感(“有点乏味”)和信息传达(“略有偏差”)等更主观的评分中,所有四个版本都未能引起专家或普通读者的共鸣。

第一个文本摘要挑战表明,ChatGPT 能够掌握简短提示的意图,如:将论文总结成十段,并提供 PDF 论文的链接。这不仅需要模型理解和遵循请求中的摘要程度,还需要知道链接代表什么,并找到它作为参考或从其标记化标题中猜测。

OpenAI 称 GPT3 不会回答可能不属于其初始训练数据的内容,例如“谁赢得了 2022 年 11 月的选举?”。这种知识差距表明,ChatGPT 本身并不主动寻找链接,而是了解其他人之前对其内容所做行为。

有趣的是,当同一提示出现两次时(唯一的区别是提示工程和链接本身冒号后的文本换行符),ChatGPT 的答案会大相径庭。其中,第一次是一篇及格的学生论文,总结了图灵原始论文的要点;第二次则将问题解释为对前十段中的每一段的总结,而不是对整篇论文的总结。

最终的结果表明,ChatGPT 生成的研究论文的整体内容在度量意义上可获得较高的分数,但缺乏连贯性,尤其当问题作为叙述中的提示被省略时。

由此或许能够得出结论,这次与 ChatGPT 的交流充分说明了它能够产生真正有创意的内容或思想飞跃的能力。

3、ChatGPT 拒绝承认通过图灵测试

GPT‑3 在生成内容时,有一个重要过滤器用于消除固有偏见。这次的 ChatGPT 也被设计为颇具有道德正当性,当被问及对某事物的看法时,ChatGPT 会拒绝给出任何具体答案,而只强调自己是如何被创造的。

许多研究人员也认同,任何模型在被问到时,都必须在道德上声明自己仅仅是一台机器,ChatGPT 严格遵守了这一要求。

而且,经过 OpenAI 对 ChatGPT 各个模型层进行的微调,当前的 ChatGPT 在被直接问到它只是一个方程式还是图灵欺骗时,它会回答:“我模仿人的能力并不一定意味着我有与人相同的思想、感觉或意识。我只是一台机器,我的行为是由所受过训练的算法和数据决定的。”

图灵还提出人类的列表记忆能力:“实际的人类计算机真的记得它们必须做什么......构建指令表通常被描述为‘编程’。”

就像越来越大的语言模型(>1000  亿)的演变一样,改进也有内置的启发式或模型执行护栏,GPT‑3 的 Instruct 系列就展示了直接回答问题的能力。而 ChatGPT 包括长期对话记忆, 因此,即便单个 API 调用无法跨越的叙述跳跃,但 API 仍可以跟踪对话。

我们可以测试带有非人称代词(如“it”)的对话,在对话中将上下文与单个会话中的先前 API 调用一起进行——这是一个易于掌握的示例,用于 ChatGPT 的 API 内存,因为对较长的对话进行编码既强大又昂贵。

在 LLM 中,API 限制以及费用影响,使得很长一段时间里,token 权重之间的相关性通常在每隔几段的整体上下文中衰减(GPT-3 中的2048个token)。克服此上下文限制可将 ChatGPT 与其公开可用的前身区分开来。

第二代 Lovelace 2.0 测试提出了创造性任务和细化执行任务的约束条件。然后,人类判断专家会评估该模型是否可以用确定性的方式进行解释,或者输出是否符合有价值、新颖和令人惊讶的条件。因此,与其让程序“写短篇小说”,不如改进任务以展示特定的长度、风格或主题。该测试结合了许多不同类型的智能理解,其中,约束层试图限制谷歌搜索内容和有关 AI 成功稀释或伪装原始来源的争论。

以下展示了一个直接回答 Lovelace 2.0 测试中提出的挑战的短篇故事示例:讲述一个男孩爱上一个女孩,外星人绑架男孩,女孩在一只会说话的猫的帮助下拯救了世界。

e8b834f4d51997c67e3632fd6c403159.png

自2014年以来,作为对文本和图像生成的限制,高质量提示工程的使用已变得司空见惯,通常效果越好,关于样式、地点或时间的说明或限定词越详细。事实上,构建提示本身是当今 AI 中获得良好输出的最具创造性的方面。在这种情况下,人们可以通过使用 ChatGPT 强制进行创造性工作,同时处理单一主题、对所需输出的风格和基调的多层限制,将图灵和 Lovelace 测试交织在一起。

下面显示了 ChatGPT 在图灵模仿游戏中生成的十种诗歌:

4b5be93e2e557d62bde01fee6cb49424.png

图灵测试的结果由人类来裁决。正如 ChatGPT 所回答的,提问者是否判断模型通过了图灵测试问题“将取决于多种因素。例如机器提供的响应质量、提问者区分人和机器响应的能力,以及用于确定机器是否成功模仿人类的特定规则和标准。最终,游戏的结果将取决于具体情况和参与者。”

4、LLM 只做序列预

并不真正理解语言

可以看到,当代基于 LLM 的对话互动可以创造一种令人信服的错觉,仿佛置身于我们面前的,是像人类这样会思考的生物。但就本质而言,此类系统从根本上不同于人类,像 ChatGPT 这样的 LLM 还涉及技术哲学的话题。

语言模型正变得越来越擅长模仿人类语言,这带来一种强烈的感受,即这些 AI 系统已经与人类非常相像,而且我们会使用“知道”、“相信”和“认为”等具有强烈自主意识的词语去描述这些系统。基于上述现状,DeepMind 资深科学家 Murray Shanahan 在近日一篇文章中提到,要破除任何或过度悲观或过度乐观的迷思,我们需要清楚 LLM 的系统到底是如何运作的。

11ea4988eb5cb889a9ae999a56c43253.png

Murray Shanahan

1、LLM 是什么,可以做什么?

BERT、GPT-2 等 LLM 的出现改变了人工智能的游戏规则,之后的 GPT-3、Gopher、PaLM 等大模型基于 Tansformer 架构,在数百 TB 的文本数据上进行训练,更加凸显了数据的强大作用。

这些模型的能力是令人惊讶的。首先,它们在基准上的表现与训练集的大小成比例;其次,随着模型规模的扩大,它们的能力有了质的飞跃;最后,许多需要人类智能的任务可以简化为使用性能足够的模型“对下一个token进行预测”。

最后一点实际上揭示了语言模型的运作方式与人类的根本不同。人类在相互交流中所使用的的直觉是经过数千年进化而来的,如今人们正在错误地把这些直觉迁移到 AI 系统上。ChatGPT 具有相当大的实用性和巨大的商业潜力,为了确保它能被可信地、安全地部署,我们需要了解它的实际工作原理。

与人类语言相比,大型语言模型有什么本质上的不同?

如维特根斯坦所说,人类语言的使用是人类集体行为的一个方面,它只有在人类社会活动的大背景下才具有意义。人类婴儿是出生在一个与其他语言使用者共享的世界,并通过与外部互动来习得语言。

而 LLM 的语言能力来源不同。人类生成的文本构成一个大规模的公共语料库,它包含了单词、单词的构件、或带标点的单个字符等 tokens,大型语言模型就是关于这些 tokens 的统计分布的生成式数学模型。

所谓的“生成”,是指我们可以从这些模型中取样,也就是进行提问。但提问的问题是非常具体的,比如我们要求 ChatGPT 帮我们续写一段话,实际上是在要求它根据它的人类语言统计模型,来预测接下来可能会出现什么词。假如我们给 ChatGPT 提示“第一个在月球上行走的人是”,并假设它会回答“Neil  Armstrong”。这里实际上并不是真的在问谁是第一个在月球上行走的人,而是:给定大量文本公共语料库中单词的统计分布,哪些单词最有可能遵循“第一个在月球上行走的人是”的序列?

尽管模型对这些问题给出的答案可能会被人类解读为模型“理解”了语言,但实际上对模型而言,它要做的就是生成具有在统计上可能的单词序列。

2、LLM 真的什么都懂吗?

LLM 通过以下两个方式来转变为问答系统:

a)  将其嵌入到更大的系统中;

b)  使用 prompt 工程来引发所需的行为。

这样一来,LLM 不仅可以用于问答,还可以用来总结新闻文章、生成剧本、解决逻辑难题以及进行语言翻译等。

这里有两个重要的要点。首先,LLM 的基本功能即生成统计意义上可能的单词序列,是非常通用的。其次,尽管具有这种多功能性,但所有这类应用程序的核心都是同一种模型,都只做同一件事,即生成统计意义上可能的单词序列。

LLM 的基础模型包括模型架构和训练参数。一个 LLM 并不真正“知道”任何事情,因为它所做的一切在底层意义上都是序列预测。模型本身并没有“真”或“假”的概念,因为它们不具备人类运用这些概念的方法。LLM 在某种意义上并不依赖意图立场。

这对于以 LLM 为核心的对话系统也是一样,它们并不能理解人类语言中关于真理的概念,因为它们不存在于我们人类语言使用者所共享的世界中。

3、关于涌现

如今的 LLM 是如此强大、多才多艺,以至于人们很难不或多或少地赋予其人格。一个相当具有吸引力的论点是,尽管 LLM 从根本上说只执行序列预测,但在学习这样做的过程中,它们有可能发现了需要用更高层次的术语比如“知识” 和“信念”进行描述的涌现机制。

事实上,人工神经网络可以将任何可计算函数逼近到任意精度。因此,无论需要何种机制来形成信念,它们都可能驻留在参数空间的某个地方。如果随机梯度下降是优化准确序列预测目标的最佳方式,那么给定一个足够大的模型、足够多的正确类型的数据以及足够的算力来训练模型,也许它们真的可以发现那种机制。

而且,最近的 LLM 研究进展已经表明,当足够大的模型在非常大量的文本数据上进行训练时,就会涌现出非凡的、意想不到的能力。

然而,只要我们的考虑仅限于一个简单的基于 LLM 的问答系统,它就根本不涉及交际依图。不管它使用的内部机制是什么,序列预测本身并没有交际意图的,简单地将交际依图嵌入到对话管理系统中也无济于事。

只有在能够区分真假的情况下,我们才能谈论最完整意义上的“信念”,但是 LLM 并不负责做出判断,它只是模拟哪些词可能跟在其他词后面。我们可以说 LLM“编码”、“存储”或“包含”知识,也可以合理地称 LLM 的一个涌现属性是它编码了日常生活世界的各种知识及其工作方式,但如果说“ChatGPT 知道北京是中国的首都”,那便只是一种修辞。

4、外部信息来源

这里的重点是,涉及将任何信念完全归于一个系统的先决条件。

任何东西都不能算作对我们共享的世界的信念,从广义上讲,除非它是在根据来自某个世界的证据适当地更新信念的能力的背景下,这是辨别真假能力的一个重要方面。

维基百科或其他一些网站,能否提供外部标准来衡量一个信念的真实性或虚假性?假设一个 LLM 被嵌入到一个系统中,该系统定期咨询此类资源,并使用现代模型编辑技术来保持其预测的事实准确性,实现信念更新需要什么样的能力?

序列预测器本身可能不是那种可以具有交流意图或形成对外部现实的信念的事物。但是,正如反复强调的那样,野外的 LLM 必须嵌入到更大的体系结构中才能发挥作用。

要构建一个问答系统,LLM 只需辅以一个对话管理系统以适当地查询模型。这个更大的架构所做的任何事情都可以算作交流意图或形成信念的能力。

至关重要的是,这种思路取决于从语言模型本身到语言模型所属的更大系统的转变。语言模型本身仍然只是一个序列预测器,并没有像以往那样更多地访问外部世界。只有相对于整个系统,在这种情况下,意向性立场才会变得更有说服力。但在屈服于它之前,我们应该提醒自己,这样的系统与人类有多么不同。

5、视觉-语言模型

LLM 可以与其他类型的模型结合和/或嵌入到更复杂的体系结构中。例如,VilBERT 和  Flamingo 等视觉语言模型 (VLM)  将语言模型与图像编码器相结合,并在文本-图像对的多模态语料库上进行训练。这使得它们能够预测给定的单词序列将如何在给定图像的上下文中继续。VLM 可用于视觉问答或就用户提供的图像进行对话,也就是俗称的“看图说话”

那么,用户提供的图像能否代表可以评估命题真假的外部现实?谈论 LLM 的信念是否合理?我们可以想象,一个 VLM 使用 LLM 来生成关于图像的假设,然后针对该图像验证其真实性,然后对 LLM 进行微调,以免做出被证明是错误的陈述。

但大多数基于 VLM 的系统并不是这样工作的。相反,它们依赖于文本和图像联合分布的冻结模型。用户提供的图像与 VLM 生成的文字之间的关系,与人类共享的世界与我们谈论该世界时使用的文字之间的关系根本不同。重要的是,前者仅仅是相关关系,而后者则是因果关系,当然,模型在推理过程中进行的计算存在因果结构,但这跟词语与其所指事物之间的因果关系不同。

6、具身 AI

人类语言使用者存在于一个共享世界中,这使得我们与 LLM 有着本质区别。孤立的 LLM 无法通过与外界交流来更新自己的信念,但如果将 LLM 嵌入到更大的系统中会如何呢?比如,呈现为机器人或虚拟化身的系统。这时候谈论 LLM 的知识和信念是合理的吗?

这要取决于 LLM 是如何具身化的。

以今年谷歌发布的 SayCan 系统为例,在这项工作中,LLM 被嵌入到控制物理机器人的系统中。机器人根据用户的高级自然语言指令执行日常任务(例如清理洒在桌面上的水)。

其中,LLM 的工作是将用户的指令映射到将帮助机器人实现所需目标的低级动作(例如寻找海绵)。这是通过一个工程化的 prompt 前缀来完成的,该前缀使模型输出合适的低级动作的自然语言描述,并对它们的有用性进行评分。

SayCan 系统的语言模型组件可能会无视机器人所在的实际环境来给出动作建议,比如旁边并没有海绵。所以,研究人员使用一个单独的感知模块利用机器人的传感器来评估场景,并确定执行每个低级动作的当前可行性。将 LLM 对每个动作的有用性评估与感知模块对每个动作的可行性评估结合起来,便可以得出下一步最优动作。

尽管 SayCan 在物理上有与现实世界的互动,但它学习和使用语言的方式与人类仍然非常不同。SayCan 这类系统中包含的语言模型经过预训练,可以在纯文本数据集的无实体环境中执行序列预测。它们并没有通过与其他语言使用者交谈来学习语言。

SayCan 的确给我们带来了关于未来语言使用系统的一种想象,但在今天这样的系统中,语言的作用非常有限。用户用自然语言向系统发出指令,系统生成对其动作的可解释的自然语言描述。但是,这种微小的语言使用范围根本无法与由语言⽀持的人类集体活动的规模相提并论。

所以,即使是对于包含 LLM 的具身 AI 系统,我们也要谨慎地选择词语去描述它们。

7、 LLM 能够推理吗?

现在我们可以否认 ChatGPT 具有信念,但它真的可以推理(reason)吗?

这个问题更加棘手,因为在形式逻辑中,推理是内容中立的(content neutral)。比如无论前提如何,“肯定前件”(modus ponens)的推理规则都是有效的:

如果:所有的人都会死,苏格拉底是人;那么:苏格拉底会死。

逻辑的内容中立性似乎意味着我们不能在推理方面对 LLM 过多苛求,因为 LLM 无法杰出到可以衡量真假的外部现实。但即便如此,当我们提示 ChatGPT“所有的人都会死,苏格拉底是人,那么”时,我们并不是在让模型进行假言推理,而是在问:给定的公共语料库中的词语统计分布,哪些词可能遵循“所有的人都会死,苏格拉底是人,那么”这一序列。

而且,更复杂的推理问题会包含多个推理步骤,由于聪明的提示工程,LLM 可以有效地应用于多步推理,无需进一步培训。例如,在思维链提示中,在用户查询之前向模型提交一个提示前缀,其中包含一些多步骤推理的示例,并明确说明,所有中间步骤在思维链风格中都包含一个提示前缀会鼓励模型,以相同的风格生成后续序列,也就是说,包括一系列导致最终答案的显式推理步骤。

像往常一样,真正向模型提出的问题的形式是“给定公共语料库中单词的统计分布,哪些单词可能遵循序列 S ”,在这种情况下,序列 S 是链接 thought 提示前缀加上用户的查询,最有可能跟在 S 之后的标记序列,将具有与提示前缀中找到的序列类似的形式,也即是在它们当中,将包括多个推理步骤,因此这些就是模型生成的。

值得注意的是,不仅模型的响应采用多步骤论证的形式,而且所讨论的论证通常(但并非总是)有效,并且最终答案通常(但并非总是)正确。在某种程度上,适当提示的 LLM 似乎推理正确,它通过在其训练集中和/或提示中模仿格式正确的参数来实现。

但是,这种模仿能构成真正的推理吗?即使今天的模型偶尔会犯错误,是否可以进一步缩小这些错误,使模型的性能与硬编码推理算法的性能无法区分?

或许答案确实为“是”,但是我们怎么知道呢?我们怎么能相信这样的模型呢?

定理证明器生成的句子序列是忠实于逻辑的,因为它们是底层计算过程的结果,其因果结构反映了定理的推理结构问题。使用 LLM 构建可信推理系统的一种方法是将其嵌入到执行相同因果结构的算法中。但是,如果我们坚持使用纯 LLM,那么,要完全相信它产生的论点,唯一方法就是对其进行逆向工程,并发现符合忠实推理规定的紧急机制。与此同时,我们应该更加谨慎,并在描述这些模型的作用时慎重行事。

参考链接:

1.https://arxiv.org/ftp/arxiv/papers/2212/2212.06721.pdf

2.https://arxiv.org/pdf/2212.03551v1.pdf

编辑:于腾凯

校对:王欣

c069195fba638db382bc7bd8262a2d7f.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/3303.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

什么是深度学习?从图灵测试谈到ChatGPT(文末送书)

图灵测试:机器有智能吗? 机器有智能吗? 英国数学家艾伦图灵(Alan Turing)在1950年发问,并提出图灵测试,目的是判断一台机器是否具有人类水平的智能。 图灵测试的基本思路是:一个人与一台机器在隔开的房间里…

当图灵测试开始过时,ChatGPT会带我们走向何方?

本文首发于知识分子。 “我一生中从未见过,至少在我从事科技行业的30年中,美国西海岸的先进科技可以在几个月内以非常真实的方式出现在印度农村。我不认为在过往的工业革命中有过这种现象,对于知识型工作者来说,也许这一次完全等于…

AIGC技术周报|图灵测试不是AGI的智力标准;SegGPT:在上下文中分割一切;ChatGPT能玩好文字游戏吗?

AIGC通过借鉴现有的、人类创造的内容来快速完成内容创作。ChatGPT、Bard等AI聊天机器人以及DallE 2、Stable Diffusion等文生图模型都属于AIGC的典型案例。「AIGC技术周报」将为你带来最新的paper、博客等前瞻性研究。 牙科的未来:从多模态大型语言模型窥探 ChatGP…

什么是深度学习?从图灵测试谈到ChatGPT

目录 1 图灵测试:机器有智能吗?2 AI缘起:达特茅斯会议3 人工神经网络的提出4 AI飞跃:深度学习 1 图灵测试:机器有智能吗? 机器有智能吗? 英国数学家艾伦图灵(Alan Turing)在1950年发问&#xff…

最近爆火的ChatGPT到底能否通过图灵测试的改进版-WS挑战?

最近ChatGPT很火啊,我也去试着玩了一下。 当然我一上来就想给它做一个图灵测试的改进版。 为什么不是做图灵测试呢? 因为图灵测试存在很多已知的问题,并且不能代表这个机器人真的有思维。 我们更想知道的是,AI是否有思考的这个动作…

安装chatgpt4free环境

pip3 install --index-url https://pypi.douban.com/simple -r requirements.txt 安装request报错解决办法 python -m pip install --upgrade pip 会继续报错,这里由于我们升级了pip,所以对应的镜像源也需要更换(博主这里换成了清华的&…

chatGPT看图写小作文

“ 从学校毕业好多年了,但是语文科目的看图写话这种作文形式给我的困扰还是历历在目,为了弥补这一遗憾,决定用AI来给我看图写话,哈哈。” 01 — 图像说明 Illustrated Image Captioning(图片说明)是一种人工…

ChatGPT写全国甲卷,光问一遍怎么可能写出好作文,一文教你高效提问AI ~

作者 | 乐意奥AI 点个关注呀 版本 | v2306.0 人们因技术发展得以更好地掌控时间,但也有人因此成了时间的仆人。 这句引人深思的话来自今年的全国甲卷。 各位读者肯定在各大自媒体平台都看到了各个博主实测 AI大战高考作文,但是大部分的博主只是简单地将…

ChatGpt写新课标I卷(江苏)2023高考语文作文,并给出评分

阅读下面的材料,根据要求写作。(60分) 好的故事,可以帮我们更好地表达和沟通,可以触动心灵、启迪智慧;好的故事,可以改变一个人的命运,可以展现一个民族的形象……故事是有力量的。 …

chatgpt3.5和chatgpt4的区别

ChatGPT4是基于GPT-3模型的一个实例,但ChatGPT4已经进行了进一步的改进和优化。GPT-3(第三 代生成式预训练模型)是OpenAl开发的一个大型语言模型,它在很多自然语言处理任务中表现出色。 ChatGPT4继承了GPT-3的基本架构和能力&…

ChatGPT开源替代来了!参数量200亿,在4300万条指令上微调而成

OpenChatKit 是一个类 ChatGPT 开源工具包,内含一个 20B 参数量的大模型,而且该模型在 4300 万条指令上进行了微调。 转自《机器之心》 2023 年,聊天机器人领域似乎只剩下两个阵营:「OpenAI 的 ChatGPT」和「其他」。 ChatGPT 功能…

如何使用 ChatGPT (人工智能聊天机器人) 运行 Docker 容器

公众号关注 「奇妙的 Linux 世界」 设为「星标」,每天带你玩转 Linux ! 最近一款新的聊天 AI 被网友们玩疯了。 它可以直接生成代码、可以给你的代码 debug 以及提出优化... 可以模仿莎士比亚风格写作... 还可以解答各种各样的问题,而且显然不…

ChatGPT新突破:打造自己的智能机器人控制系统

💖 作者简介:大家好,我是Zeeland,全栈领域优质创作者。📝 CSDN主页:Zeeland🔥📣 我的博客:Zeeland📚 Github主页: Undertone0809 (Zeeland) (github.com)&…

国内最新的ChatGpt4模型可用介绍镜像CODE-MJ 分析 报道

近期,国内最新的ChatGPT4模型备受关注,尤其是其白泽AI 镜像CODE的引入。这一进展为自然语言处理领域带来了新的探索和应用前景。在本文中,我们将对白泽AI 进行深入分析,以揭示其潜力和创新之处。 首先,白泽AI 镜像COD…

【ChatGPT】预训练模型微调及其应用(ChatGLM-6B、duckduckgo_search、GPT在科研的应用等)

note instructGPT(基于提示学习的系列模型)——>GPT3.5(大规模预训练语言模型)——>ChatGPT模型(高质量数据标注反馈学习)。chatGPT三大技术:情景学习、思维链、自然指令学习。GPT4飞跃式…

ChatGPT 有什么新奇的使用方式?

你别说,你还真别说,我对象一般用它谈恋爱!!! 我对象在谈一种很新的恋爱,不建议模仿,因为根本停不下来! 事情是这样的,我最近开始对ChatGPT感兴趣,但我这个技…

【跟着ChatGPT学深度学习】ChatGPT带我入门NLP

❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️ 👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博…

【ChatGPT散文篇】ChatGPT-清华大学的讲座要点

刚听了清华大学关于ChatGPT的讲座,总结几个要点: 1、AI有可能成为地球上最初的硅基生命。 2、AI已迭代至博士研究生的智力水平。 3、以后将不存在学科和专业的概念,也不存在文科理科的区分,将是学科大融合。因为一个文科生哪怕不懂代码&a…

【跟着ChatGPT学深度学习】ChatGPT教我文本分类

❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️ 👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博…

ChatGPT 被居心不良的人拿去搞黄色了...

此前,推出的各类AI绘画工具。 想要制作出还能看得过去的作品,需要一定的美术功底和美感,上手门槛一点也不低。 大部分绅士顶多做个饱饱眼福的观众,完全没有参与感。 啪得一下很快啊,最近一个新的AI又火了,终…