AI大模型探索之路-基础篇5:GLM-4解锁国产大模型的全能智慧与创新应用

目录

  • 前言
  • 一、GLM4大模型总体概述
  • 二、GLM4和GPT4功能对比
  • 三、GLM4和GPT4性能对比
    • 1、基础能力(英文)
    • 2、指令跟随能力
    • 3、对齐能力
    • 4、长文本能力
    • 5、多模态-文生图
  • 四、GLM-4 ALL Tools
    • 1、文生图
    • 2、代码解释器
    • 3、网页浏览
    • 4、Function Call
    • 5、多工具自动调用
  • 五、开发者平台对比
  • 六、大模型生态对比
  • 七、开放平台注册使用
    • 1、账号注册
    • 2、生成API KEY
    • 3、额度查看
    • 4、知识库
    • 5、应用中心
    • 6、体验中心
    • 7、知识库应用测试
  • 八、API简单测试
  • 总结


前言

随着人工智能技术的飞速发展,大型预训练语言模型已成为推动行业进步的重要力量。它们在理解自然语言、生成文本、执行复杂任务等方面展现出惊人的能力。在此背景下,国产大模型GLM-4的问世,不仅展现了中国在AI领域的实力,也为国内外研究者和开发者提供了新的研究与应用平台。

一、GLM4大模型总体概述

在这里插入图片描述

北京时间2024年1月16日,标志着国内人工智能重要进展的一刻,清华智谱AI在举办 developers 大会时,向公众介绍了全新一代的基座模型——GLM-4。这一模型不仅性能卓越,更加入了创新的“ALL Tools”功能,同时发布了配套工具GLMS和API接口GLM-4-API,并启动了GLM-4Assistant API的邀请内测,体现了其在多方面的应用潜力。
1)模型功能方面:新一代的GLM-4是一个长文本多模态的大模型,具有128K的长对话上下文长度,支持丰富的应用如图文互译、自动代码执行、联网操作以及稳定的全自动Function call。这些特性使得GLM-4成为一个多功能且强大的智能系统
2)模型性能方面:GLM-4的整体性能相比前代GLM-3有了显著提升,提升了60%,其综合能力已接近世界顶尖模型Gemini Ultra和GPT-4,特别是在中文处理能力上甚至超越了GPT-4,堪称国产版的GPT-4。

二、GLM4和GPT4功能对比

在这里插入图片描述
GLM-4拥有类似ChatGPT ALL Tools功能,可以识别用户意图,灵活调用不同功能可以根据人类意图,灵活调用CoaView3进行绘图与修改、调用代码解释器完成复杂计算、调用Function cal来调用外部工具AP1、联网、以及多工具组合调用;
目前ALL Tools功能只能在智谱清言中使用,暂时无法通过调用API实现,估计之后会在GLM AssistantAPI中实现
智谱清言
s://chatglm.cn/

三、GLM4和GPT4性能对比

在各项评测中,GLM-4的性能表现几乎达到GPT-4的95%,尤其在中文对齐能力方面有着超越的表现。无论是基础能力(英文)、指令跟随能力、对齐能力还是长文本处理能力,GLM-4都显示出了与GPT-4相匹敌甚至超越的水平。此外,在多模态文生图方面,GLM-4也表现出色,与DALLE3相当。

1、基础能力(英文)

GLM-4 在 MMLU、GSM8K、MATH、BBH、HellaSwag、HumanEval 等数据集上,分别达到 GPT-4 94%、95%、91%、99%、90%、100%的水平。
在这里插入图片描述

2、指令跟随能力

GLM-4 在 IFEval 的 prompt 级别上中、英分别达到 GPT-4 的88%、85%的水平,在 Instruction 级别上中、英分别达到 GPT-4 的90%、89%的水平。
在这里插入图片描述

3、对齐能力

GLM-4 在中文对齐能力上整体超过 GPT-4。
在这里插入图片描述

4、长文本能力

我们在 LongBench(128K)测试集上对多个模型进行评测,GLM-4 性能超过 Claude 2.1;在「大海捞针」(128K)实验中,GLM-4 的测试结果为 128K 以内全绿,做到100%精准召回。
在这里插入图片描述

5、多模态-文生图

CogView3 在文生图多个评测指标上,相比 DALLE3 约在 91.4% ~99.3%的水平之间。
在这里插入图片描述

四、GLM-4 ALL Tools

GLM-4能够根据用户的指令自主理解和规划任务,自由调用网页浏览器、代码解释器和多模态文生图等工具完成复杂任务。这包括基于上下文的AI绘画创作、复杂计算任务的自动代码执行、高效的网页信息检索等。此外,GLM-4还支持多工具的自动调用,进一步提高了处理复杂问题的能力。

简单来讲,即只需一个指令,GLM-4 会自动分析指令,结合上下文选择决定调用合适的工具。

1、文生图

利用CogView3,GLM-4不只是能够生成图像,它还可以根据用户提供的详细文本描述进行创作。更为惊人的是,它可以在多次迭代中接受用户的反馈,实时调整图像细节,直至用户满意为止。这一过程涉及到复杂的视觉理解与图像生成技术,而GLM-4能够无缝地完成这一切。
在这里插入图片描述

2、代码解释器

GLM-4 能够通过自动调用 python 解释器,进行复杂计算(例如复杂方程、微积分等),在 GSM8K、MATH、Math23K 等多个评测集上都取得了接近或同等 GPT-4 All Tools 的水平。
在这里插入图片描述

通过内置的代码解释器,GLM-4可以执行复杂的程序代码。无论是高级的数据分析任务还是需解决特定数学问题的算法,GLM-4都能提供开箱即用的解决方案。此外,它还能够处理多线程和复杂控制流,这使得它能够应对实际开发中的复杂场景。

3、网页浏览

GLM-4 能够自行规划检索任务、自行选择信息源、自行与信息源交互,在准确率上能够达到 78.08,是 GPT-4 All Tools 的116%。
在这里插入图片描述

GLM-4的网页浏览功能使它成为一个强大的信息检索工具。模型可以自主地在互联网上搜索信息、筛选相关数据,并直接与网页内容交云,从而提供最新最准确的信息响应用户查询。

4、Function Call

GLM-4 能够根据用户提供的 Function 描述,自动选择所需 Function 并生成参数,以及根据 Function 的返回值生成回复;同时也支持一次输入进行多次 Function 调用,支持包含中文及特殊符号的 Function 名字。这一方面 GLM-4 All Tools 与 GPT-4 Turbo 相当。

在这里插入图片描述

通过Function Call功能,GLM-4可以接受一个函数的描述,然后自动找到对应的函数并产生恰当的参数来执行它。这意味着即使用户不具备编程知识,也能够利用GLM-4完成一系列专业任务。此外,对于需要多次执行的命令,GLM-4支持批量处理,极大提高了效率。

5、多工具自动调用

在处理一些需要综合利用多种工具才能解决的问题时,GLM-4展现了其卓越的联合作战能力。例如,一个复杂的问题可能需要网络搜索获取信息、代码解释器计算结果以及文生图来制作图表展示。GLM-4可以流畅地在这些工具之间切换,无需用户进行任何额外的操作或指令输入,所有的工作都在后台自动完成。
在这里插入图片描述

五、开发者平台对比

GPT有提供给开发人员使用的API开发者平台,我们注册后可以进行ChatGPT的体验,获取API KEY调用相关API,实现自己的AI应用开发。
在这里插入图片描述

为了方便开发者利用这些高级功能,清华智谱提供了MaaS开放平台,类似于OpenAI的API开发者平台。对于国内用户而言,GLM的平台更为便捷,不受网络限制。
在这里插入图片描述

六、大模型生态对比

清华智谱在生态上基本上完全对标OpenAI来打造的,例如有对标ChatGPT的智谱清言,有对标GPT4的GLM4; 也有对比GPTs的GLMs,另外GLM也有开发自己的Store,以及后面推出GLM4-Assistant API。

智谱清言OpenAI
GLM-4GPT-4
GLMsGPTs
GLM StoreGPT Store
GLM-4 Assistant APIOpenAI Assistant API

七、开放平台注册使用

开放平台的注册过程简单明了,用户注册后,并获得初始的API KEY。新用户会获得一定额度的免费token,以便测试和使用。充值也极为方便,支持微信和支付宝支付。此外,开放平台上还有知识库和应用中心等功能,允许用户上传自己的知识库,并在无代码的环境中开发应用。体验中心则可以让用户直接体验大模型的功能,进行实际的对话和测试。

1、账号注册

首先,用户需要通过https://open.bigmodel.cn/login访问开放平台的注册页面。这个过程非常直观和友好,不需要特殊的网络技巧,确保了国内外的用户都能轻松进入。完成注册后,用户将获得一个账户,这是开启GLM-4之旅的第一步。
在这里插入图片描述

2、生成API KEY

拥有账户后,用户登录平台并自动获得一个独一无二的API KEY,这是调用GLM-4 API的凭证。如果需要,用户还可以在账户设置中生成更多的API KEY,或对已有的KEY进行管理,以满足不同开发环境和场景的需要。
在这里插入图片描述

3、额度查看

开放平台为用户提供了一个初始的免费token额度,让用户能够体验GLM-4的功能而无需担心费用。一旦用户的免费额度用完,可以通过微信或支付宝等便捷的支付方式进行充值,这既方便又安全。
在这里插入图片描述

4、知识库

知识库是应用开发的核心,尤其是在构建智能问答系统时。开放平台向用户提供了易于操作的界面来上传和管理自己的知识库。这些知识库可以包含结构化数据、文档、图片等,用于训练模型或增强其回答质量。
在这里插入图片描述

知识库准备:自己本地整理一个word或者PDF的问答类的知识库信息,如下:
在这里插入图片描述

5、应用中心

在应用中心,用户可以发现如何无代码创建自己的AI应用。平台提供了详细的指导和模板,使得即便是没有编程背景的用户也能够利用GLM-4的能力,打造个性化的AI服务。

比如我们前面很多篇章中讲到的知识库应用;提前准备好知识库;填写好相关机器人应用的信息,即可在体验中心进行体验使用。

在这里插入图片描述

6、体验中心

为了测试和展示大模型的能力,体验中心提供了多种预设的场景和应用示例。用户可以直接与GLM-4进行互动,体验它的多功能性。同时,用户也可以从体验中心切换到自己定制的应用,实时观察和评估它们的性能。
同时在体验中心,我们可以体验大模型的功能,进行对话聊天;也可以从右侧菜单栏中,切换为应用
在这里插入图片描述

切换为应用后,就可以看到我们前面自己创建的额“问答测试机器人了”,可以直接进行体验测试;另外也可以在右边栏中查看关联的知识库情况。
在这里插入图片描述

7、知识库应用测试

当用户基于自己的知识库对模型进行提问时,可以准确评估GLM-4对于特定信息的处理能力。这种测试不仅可以用来检验模型的效果,还能够帮助用户理解和改善知识库的结构和内容,以获得更优的用户体验。
对自己前面上传的知识库,进行问答测试,发现精准度还是非常高的。
在这里插入图片描述

八、API简单测试

安装依赖

pip install --upgrade zhipuai

请求示例

from zhipuai import ZhipuAI
client = ZhipuAI(api_key="") # 填写您自己的APIKey
response = client.chat.completions.create(model="glm-4",  # 填写需要调用的模型名称messages=[{"role": "user", "content": "作为一名营销专家,请为智谱开放平台创作一个吸引人的slogan"},{"role": "assistant", "content": "当然,为了创作一个吸引人的slogan,请告诉我一些关于您产品的信息"},{"role": "user", "content": "智谱AI开放平台"},{"role": "assistant", "content": "智启未来,谱绘无限一智谱AI,让创新触手可及!"},{"role": "user", "content": "创造一个更精准、吸引人的slogan"}],
)
print(response.choices[0].message)

输出:

{"created": 1703487403,"id": "8239375684858666781","model": "glm-4","request_id": "8239375684858666781","choices": [{"finish_reason": "stop","index": 0,"message": {"content": "智绘蓝图,AI驱动 —— 智谱AI,让每一刻创新成为可能。","role": "assistant"}}],"usage": {"completion_tokens": 217,"prompt_tokens": 31,"total_tokens": 248}
}

总结

GLM-4的推出不仅是国产AI技术的一大飞跃,也为国内外的研究者和开发者提供了更多的可能性。其强大的功能和卓越的性能,无疑将在未来的AI领域中发挥重要作用。随着开放平台的不断完善和大模型生态的逐渐成熟,我们有理由期待GLM-4将带来更多的创新和应用。

在这里插入图片描述

🎯🔖更多专栏系列文章:AIGC-AI大模型探索之路

如果文章内容对您有所触动,别忘了点赞、⭐关注,收藏!加入我,让我们携手同行AI的探索之旅,一起开启智能时代的大门!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/331346.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

23种设计模式(持续输出中)

一.设计模式的作用 设计模式是软件从业人员长期总结出来用于解决特定问题的通用性框架,它提高了代码的可维护性、可扩展性、可读性以及复用性。 二.设计模式 1.工厂模式 工厂模式提供了创建对象的接口,而无需制定创建对象的具体类,工厂类…

HarmonyOS之ArkUI布局设计常见细节

这里写目录标题 1. Button设置带有渐变色的背景图片无效1.1 问题分析1.2 成功案例 2. 路由跳转失败2.1 问题分析 1. Button设置带有渐变色的背景图片无效 1.1 问题分析 说明:设置颜色渐变需先设置backgroundColor为透明色。 Button($r(app.string.login), { type…

【机器学习】机器学习与大型预训练模型的前沿探索:跨模态理解与生成的新纪元

🔒文章目录: 💥1.引言 ☔2.跨模态理解与生成技术概述 🚲3.大型预训练模型在跨模态理解与生成中的应用 🛴4.前沿探索与挑战并存 👊5.未来趋势与展望 💥1.引言 近年来,机器学习领…

解决Flutter位于悬浮窗口时,应用Logo不更新问题

问题描述 我已经更换了应用Logo,但是发现应用处于悬浮窗口时,logo还是更改之前的?下面的图片只是示意。 解决方案 终端命令 rm -rf ~/Library/Developer/Xcode/DerivedData2.xcode视图内解决 先在顶部找到 Xcode --> Setting --> Lo…

代码随想录算法训练营第十七天(py)| 二叉树 | 513.找树左下角的值、112. 路径总和、106.从中序与后序遍历序列构造二叉树

513.找树左下角的值 力扣链接 给定一个二叉树的 根节点 root,请找出该二叉树的 最底层 最左边 节点的值。 思路 层序遍历 层序遍历之后,取最后一个数组的第一个元素 class Solution:def findBottomLeftValue(self, root: Optional[TreeNode]) -> …

深入解析编程逻辑中的关键字与逻辑运算

新书上架~👇全国包邮奥~ python实用小工具开发教程http://pythontoolsteach.com/3 欢迎关注我👆,收藏下次不迷路┗|`O′|┛ 嗷~~ 目录 一、认识关键字及其重要性 二、逻辑运算的关键字 1. and、or 和 not 的运用 2. 逻辑运算的…

世界上首位AI程序员诞生,AI将成为人类的对手吗?

3月13日,世界上第一位AI程序员Devin诞生,不仅能自主学习新技术,自己改Bug,甚至还能训练和微调自己的AI模型,表现已然远超GPT-4等“顶流选手”。 AI的学习速度如此之快,人类的教育能否跟上“机器学习”的速…

【C++算法】BFS解决单源最短路问题相关经典算法题

1.迷宫中离入口最近的出口 首先我们可以将这道题目简化一下,可以往我们这一章的主题上面来想想。 我们利层序遍历来解决最短路径问题,是最经典的做法。我们可以从起点开始层序遍历, 并组在遍历的过程中记录当前遍历的层数。这样就能在找到出口的时候&…

人工智能应用-实验7-胶囊网络分类minst手写数据集

文章目录 🧡🧡实验内容🧡🧡🧡🧡代码🧡🧡🧡🧡分析结果🧡🧡🧡🧡实验总结🧡🧡 &#x1f9…

缓存IO与直接IO

IO类型 缓存 I/O 缓存 I/O 又被称作标准 I/O,大多数文件系统的默认 I/O 操作都是缓存 I/O。在 Linux 的缓存 I/O 机制中,数据先从磁盘复制到内核空间的缓冲区,然后从内核空间缓冲区复制到应用程序的地址空间(用户空间&#xff0…

常见 JVM 面试题补充

原文地址 : 26 福利:常见 JVM 面试题补充 (lianglianglee.com) CMS 是老年代垃圾回收器? 初步印象是,但实际上不是。根据 CMS 的各个收集过程,它其实是一个涉及年轻代和老年代的综合性垃圾回收器。在很多文章和书籍的划分中&…

Hive运行错误

Hive 文章目录 Hive错误日志错误SessionHiveMetaStoreClientql.Driver: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTaskerror: Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster Please check …

三、自定义信号和槽函数(无参和有参)

需求: 下班后,小明说请小红吃好吃的,随便吃,吃啥买啥 无参:小红没有提出吃啥 有参:小红提出自己想吃的东西,吃啥取决于一时兴起(emit触发) 思路: 1&#xff…

【高时效通路】

一 高时效通路 1.1 pathchdumper 实时数据拉取、实时数据处理、5分钟微批dump来加速时效性,具体来说: 实时数据拉取(Fetcher):基于Databus Fetcher基建,直接对接F0层实时拉取最新数据,保证该…

电脑键盘如何练习盲打?

电脑键盘如何练习盲打?盲打很简单,跟着我做,今天教会你。 请看【图1】: 【图1】中,红色方框就是8个基准键位,打字时我们左右手的8个手指就是放在这8个基准键位上,F键和J键上各有一个小突起&…

AcW木棒-XMUOJ恢复破碎的符咒木牌-DFS与剪枝

题目 思路 话不多说,直接上代码 代码 /* AcW木棒-XMUOJ恢复破碎的符咒木牌 搜索顺序:从小到大枚举最终的长度 len从前往后依次拼每根长度为len的木棍 优化: 1.优化搜索顺序:优先选择深度短的来搜索,故从大到小去枚…

Java——简易图书管理系统

本文使用 Java 实现一个简易图书管理系统 一、思路 简易图书管理系统说白了其实就是 用户 与 图书 这两个对象之间的交互 书的属性有 书名 作者 类型 价格 借阅状态 而用户可以分为 普通用户 管理员 使用数组将书统一管理起来 用户对这个数组进行操作 普通用户可以进…

Python简介

Python简介 1. Python定义 Python 是一种简单易学并且结合了解释性、编译性、互动性和面向对象的脚本语言。Python提供了高级数据结构,它的语法和动态类型以及解释性使它成为广大开发者的首选编程语言。 Python 是解释型语言: 开发过程中没有了编译这个环…

Android Gradle开发、应用、插件发布(六)—实现打包自动复制文件插件

1. 前言 项目中遇到了一个问题 : 其中一个模块MyLibrary的assets文件夹中,需要存放很多文件(每个文件对应一个功能)。 这样导致的问题是MyLibrary打出的这个aar包体积特别大。 如果把MyLibrary严谨地拆解成若干个Module又比较费时,对于现在业务现状来…

Vue3实战笔记(42)—Vue + ECharts:流量数据可视化的强大组合

文章目录 前言vue3使用echarts标准demo:总结 前言 在前端开发中,数据可视化已经成为了一个不可或缺的部分。Vue.js作为一个轻量级且易于上手的渐进式JavaScript框架,与ECharts这个强大的数据可视化库的结合,使得在Vue应用中构建交…