清华大学版 ChatGPT 发布,ChatGLM启动内测!

点击“开发者技术前线”,选择“星标”

让一部分开发者看到未

50e3ea6f5275d3f9855f9c3b010233b1.jpeg

转载自:机器之心

我们问了 ChatGLM 几个关键问题,它给的回答似乎很不错。

ChatGPT 的发布,搅动了整个 AI 领域,各大科技公司、创业公司以及高校团队都在跟进。近段时间,机器之心报道了多家创业公司、高校团队的研究成果。

昨日,又一国产 AI 对话大模型重磅登场:由清华技术成果转化的公司智谱 AI 基于 GLM-130B 千亿基座模型的 ChatGLM 现已开启邀请制内测。

值得一提的是,此次智谱 AI 也开源了中英双语对话模型 ChatGLM-6B,支持在单张消费级显卡上进行推理使用。

44b8ea29dd00b8c598eb37a11fcfb019.png

内测申请网址:chatglm.cn

据了解,ChatGLM 当前版本模型的能力提升主要来源于独特的千亿基座模型 GLM-130B。它是不同于 BERT、GPT-3 以及 T5 的架构,是一个包含多目标函数的自回归预训练模型。

2022 年 8 月,清华大学联合智谱 AI 向研究界和工业界开放了拥有 1300 亿参数的中英双语稠密模型 GLM-130B,该模型有一些独特的优势:

  • 双语:同时支持中文和英文;

  • 高精度(英文):在公开的英文自然语言榜单 LAMBADA、MMLU 和 Big-bench-lite 上优于 GPT-3 175B(API: davinci,基座模型)、OPT-175B 和 BLOOM-176B;

  • 高精度(中文):在 7 个零样本 CLUE 数据集和 5 个零样本 FewCLUE 数据集上明显优于 ERNIE TITAN 3.0 260B 和 YUAN 1.0-245B;

  • 快速推理:首个实现 INT4 量化的千亿模型,支持用一台 4 卡 3090 或 8 卡 2080Ti 服务器进行快速且基本无损推理;

  • 可复现性:所有结果(超过 30 个任务)均可通过我们的开源代码和模型参数复现;

  • 跨平台:支持在国产的海光 DCU、华为昇腾 910 和申威处理器及美国的英伟达芯片上进行训练与推理。

如今, 参考 ChatGPT 的设计思路,ChatGLM 在千亿基座模型 GLM-130B 中注入了代码预训练,通过有监督微调(Supervised Fine-Tuning)等技术实现人类意图对齐。

机器之心获得了内测邀请码,这里简单和 ChatGLM 进行了对话,效果如下:

4801d83fab05f0fc8aeaa662a8e217c2.png

17d2688af5a41629e399cc30f6e9699c.png

它能够理解「站 CP」的实际涵义:

1f00c08bb036de436ccdfb905416967c.png

给 ChatGLM 一个数学问题试试:

5a2c47b2490cca1c72aaf72a47b9b02b.png

自从学会了二元一次方程,像这种基础的「鸡兔同笼」问题就再也难不倒它了:

46a0c4f830940f2187dce59bd77962be.png

开源 ChatGLM-6B

ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型,并针对中文进行了优化。该模型基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。ChatGLM-6B 使用了和 ChatGLM 相同的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 虽然规模不及千亿模型,但大大降低了推理成本,提升了效率,并且已经能生成相当符合人类偏好的回答。

模型开源地址:https://github.com/THUDM/ChatGLM-6B

具体来说,ChatGLM-6B 具备以下特点:

  • 充分的中英双语预训练:ChatGLM-6B 在 1:1 比例的中英语料上训练了 1T 的 token 量,兼具双语能力。

  • 优化的模型架构和大小:吸取 GLM-130B 训练经验,修正了二维 RoPE 位置编码实现,使用传统 FFN 结构。6B(62 亿)的参数大小,也使得研究者和个人开发者自己微调和部署 ChatGLM-6B 成为可能。

  • 较低的部署门槛:FP16 半精度下,ChatGLM-6B 需要至少 13 GB 的显存进行推理,结合模型量化技术,这一需求可以进一步降低到 10GB(INT8) 和 6GB(INT4),使得 ChatGLM-6B 可以部署在消费级显卡上。

  • 更长的序列长度:相比 GLM-10B(序列长度 1024),ChatGLM-6B 序列长度达 2048,支持更长对话和应用。

  • 人类意图对齐训练:使用了监督微调(Supervised Fine-Tuning)、反馈自助(Feedback Bootstrap)、人类反馈强化学习(Reinforcement Learning from Human Feedback)等方式,使模型初具理解人类指令意图的能力。输出格式为 markdown,方便展示。

不过由于 ChatGLM-6B 模型的容量较小,不可避免的存在一些局限和不足,包括:

  • 相对较弱的模型记忆和语言能力。在面对许多事实性知识任务时,ChatGLM-6B 可能会生成不正确的信息,也不太擅长逻辑类问题(如数学、编程)的解答。

  • 可能会产生有害说明或有偏见的内容:ChatGLM-6B 只是一个初步与人类意图对齐的语言模型,可能会生成有害、有偏见的内容。

  • 较弱的多轮对话能力:ChatGLM-6B 的上下文理解能力还不够充分,在面对长答案生成和多轮对话的场景时,可能会出现上下文丢失和理解错误的情况。

GLM 团队表示,ChatGLM 距离国际顶尖大模型研究和产品还有一定差距,未来将持续研发并开源更新版本的 ChatGLM 和相关模型。GLM 团队也欢迎大家下载 ChatGLM-6B,基于它进行研究和(非商用)应用开发。

— 完 —
点这里👇关注我,记得收藏订阅哦~

历史推荐

ChatGPT数据泄露,技术细节披露公布

原腾讯副总裁,Google资深研究员吴军:ChatGPT不算新技术革命,带不来什么新机会

商汤版 ChatGPT 正式发布

好文点个在看吧

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/1720.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT-4震撼发布

3月15日消息,美国当地时间周二,人工智能研究公司OpenAI发布了其下一代大型语言模型GPT-4,这是其支持ChatGPT和新必应等应用程序的最新AI大型语言模型。该公司表示,该模型在许多专业测试中的表现超出了“人类水平”。GPT-4, 相较于…

ChatGPT API使用介绍

1.概述 随着人工智能技术的不断发展,越来越多的AI产品被应用到各个领域,其中最具代表性的莫过于人工智能语言模型。语言模型是一种可以通过学习大量语言数据来预测文本或语音的技术,其应用范围十分广泛,如智能客服、机器翻译、语…

ChatGPT详细介绍原理

ChatGPT的介绍 ChatGPT全称为“chat Generative Pre-trained Transformer”,翻译成中文就是生成型预训练变换模型。它是美国公司OpenAl在2022年11月30日发布研发的聊天机器人程序,能用于问答、文本摘要生成、机器翻译、分类、代码生成和对话Al。「l是一…

ChatGPT发展机遇和思考

去年12月ChatGPT横空出世,在业界引起惊涛骇浪,最近又发布了GPT-4的进化版本,ChatGPT将对我们的工作生活有什么样的影响,又将如何应对?本文不讨论ChatGPT背后的具体模型算法和实现逻辑,只简单讨论ChatGPT对产…

ChatGPT这么火,强大的背后是什么,未来又会发展成什么样?

近日,现有的ChatGPT这么火🔥,不知道大家期不期待后续版本,这个ChatGPT3和ChatGPT4已经很久了,但是总听别人说怎么怎么好,怎么怎么牛,真的不如自己去试一把。如果还没有切身体会,是真…

未来已来,快速了解即将颠覆世界的ChatGPT

写这么一篇长文,可能有悖于“简单科普”的初衷,但是当发现这种简单科普的能力可以轻而易举的被AI所掌握的时候,输出一些主观的个人观点,无论对错,或许来的更加有意义,以激起更多的水花。 一晃眼整个冬天就过…

未来已来,时代颠覆者ChatGPT你真的了解吗?

文章目录 什么是ChatGPTchatgpt与自然语言处理从gpt1.0到chatgpt,经历了什么chatgpt是一个语言模型chatgpt是如何处理文字输入的写在最后 ✍创作者:全栈弄潮儿 🏡 个人主页: 全栈弄潮儿的个人主页 🏙️ 个人社区&#…

ChatGPT探索系列之六:思考ChatGPT的未来发展趋势和挑战

文章目录 前言一、未来发展趋势1. ChatGPT重塑数据分析之道2. ChatGPT颠覆企业运用人工智能和机器学习的途径3. ChatGPT颠覆自动化商业流程4. ChatGPT引领企业决策迈向新纪元 二、ChatGPT掀开未来充满机遇和挑战的新篇章总结 前言 ChatGPT发展到目前,其实网上已经有…

ChatGPT 与未来软件开发的关系

在过去几年中,自然语言处理 (NLP) 取得了重大进展,并为软件开发开辟了新的可能性。最令人印象深刻的 NLP 应用之一是聊天机器人的开发,它能够通过自然语言与用户交流。ChatGPT 就是这样一种聊天机器人,这是一种由 OpenAI 开发的大…

ChatGPT的影响力和未来发展

ChatGPT是一种基于深度学习的自然语言处理技术,它是由OpenAI开发的一种语言模型。ChatGPT作为一个大型语言模型,可以在很多方面对程序职业产生影响。值得注意的是,ChatGPT和其他语言模型一样,只是一种技术工具,它的应用…

ChatGPT与这一代互联网人的未来

文|黄有璨 来源|黄有璨(ID:owen_hyc) 封面来源|视觉中国 在过去几周里,ChatGPT已然成为了整个科技、互联网、投资界里被关注讨论得最多的存在,说它是2023年截止到目前为止最值得关注讨论的技…

ChatGPT未来将是什么样子?《你好,ChatGPT》深度阐述

前言 人工智能技术的发展已经逐渐改变了我们的生活和工作方式,其中,语言模型技术是近年来关注度很高的一个领域。在这个领域,ChatGPT是一个备受瞩目的产品,它不仅是一个聊天程序,更是一个能够产生具有连贯性和逻辑性的…

ChatGPT是未来吗?

ChatGPT自2022年11月份发布以来,获得了很多关注,最近GPT-4、文心一言陆续发布,也让大家有了更多的感受。这次再重新审视一下ChatGPT,谈谈未来到底是怎样的。 先拿出来ChatGPT官网对自己的一些说明: ChatGPT面临的主要…

从一路高歌到遭多国“封杀”,ChatGPT未来将是什么样子?

“IT有得聊”是机械工业出版社旗下IT专业资讯和服务平台,致力于帮助读者在广义的IT领域里,掌握更专业、更实用的知识与技能,快速提升职场竞争力。 点击蓝色微信名可快速关注我们! 人工智能技术的发展已经逐渐改变了我们的生活和工作方式&…

ChatGPT体验小记

只截取了部分内容的例子,到底ChatGPT效果怎样,不一而足。

ChatGPT体验感受

对话人机 ------ 从Wechat 到 We chat with GPT 声明:本文未教授如何注册的ChatGPT, 仅记录与该语言模型的对话 文章目录 对话人机------ 从Wechat 到 We chat with GPT什么是ChatGPT?如何使用ChatGPT?错误的使用姿势正确的使用姿势另辟蹊径 Good news! 更多内容请看文末另…

“ChatGPT 互动体验:我做了一个可以在线使用的网站“

ChatGPT是什么? ChatGPT本质是一个应用在对话场景的语言模型,基于GPT3.5通过人类反馈的强化学习微调而来,能够回答后续问题、承认错误、质疑不正确的前提以及拒绝不适当的请求。 ALAPI 是什么? ALAPI 是国内的一个接口开发聚合平台&#xff…

分享ChatGPT初体验总结

ChatGPT是一种由OpenAI训练的大型语言模型。它的原理是基于Transformer架构,通过预训练大量文本数据来学习如何生成人类可读的文本,然后通过接受输入并生成输出来实现对话。 今天小编分享一些ChatGPT 真实有趣的示例 ,让大家体验一下ChatGPT…

在Jupyter Notebook,沉浸式体验ChatGPT

大家好,我是章北海mlpy 写代码,修Bug是 ChatGPT 目前最擅长的领域之一 今天向大家推荐一个刚刚开源的Python包 安装后可以直接在IPython和Jupyter Notebook中直接调用ChatGPT 随问随答,直接copy代码,有bug也能无缝衔接地修复。…

ChatGPT java体验

1.可以帮你实现设计模式模型 2.可以帮你优化代码&#xff0c;比如下面这段代码获取时间集合的方法 public List<Date> getDealTimeList(Integer showType){List<Date> timeList new ArrayList<>();Calendar cal new GregorianCalendar();cal.set(Calenda…