谷歌开源Gemma-2 百亿参数大模型,性能超越Llama-3模型,免费使用

Gemma 模型

Gemma模型是谷歌发布的一个开源模型,任何人都可以免费下载预训练模型,进行使用。而谷歌最近也发布了Gemma 2 模型,模型参数超过了 200 亿大官,果真大模型最后都是拼参数的时候吗。

Gemma 2 模型发布

Gemma 2 模型可以免费在 Google AI Studio上使用,且Google AI Studio上不仅支持Gemma 2模型,还支持Gemini 系列模型,包含Gemini 1.0 pro,Gemini 1.5 pro,Gemini 1.5flash 等模型。当然喜欢代码的小伙伴,也可以直接使用keras-nlp使用Gemma 2 模型。

Gemma 2 在 Google AI studio 中免费使用

刚开始学习 transformer 模型时,其 d_model的维度一直是 512 维度,而现在的大模型为了更加学习到相关的语义信息,除了堆叠更多的 transformer 模块外,还更加了多头注意力机制的维度与头数,更是增加了 embedding 的维度。而Gemma 2 模型embedding 维度最大到达了 4608,可想而知,其模型计算参数是何其的庞大。

Gemma 2 模型参数

与meta 最大的开源模型 llama3 对比,其Gemma 2 90 亿参数的模型已经超越了 llama3 大模型,而 270 亿参数的Gemma 2模型,其性能也是有了大的飞跃。

Gemma 2 与其他开源模型性能对比

Gemma 2模型是Gemma 系列模型的最新版本,其模型新增加了两项功能强大且高效的新功能,并内置了安全方面的改进,任何人可以免费使用Gemma 2模型。可以在Google AI 界面上,点击使用入门进行使用,也可以直接在 Google AI studio 中直接使用。

Gemma 1: 轻量级的文本到文本的模型,仅仅使用了 transformer 模型的解码器,基于大型文本,代码,与数学内容进行模型训练,适用于各种自然语言处理任务。

RecurrentGamma: 从模型名字可以看出,此版本 gemma模型是一个循环神经网络的模型,此模型大大提高了内存的使用效率。

PaliGemma: 此模型是一个开放的视觉语言模型,其灵感来源PaLl-3,一个多模态模型。

CodeGemma:此模型是最初训练的一个模型,其提供强大的代码补全和生成功能,其模型可以直接在本地使用。

Gemma的开源系列已经增加了多种模型,可以直接使用此模型,当然Gemma系列的模型都可以直接使用代码使用,其Gemma-2 的代码如下:

!pip install -U keras-nlp
!pip install -U keras
import keras
import keras_nlp
import numpy as np
gemma_lm = keras_nlp.models.GemmaCausalLM.from_preset("gemma2_instruct_27b_en")
gemma_lm.generate("Keras is a", max_length=30)
gemma_lm.generate(["Keras is a", "I want to say"], max_length=30)

模型直接使用keras_nlp加载预训练模型,然后就可以输入文本进行模型的相关预测功能了。所有开发者可以在 kaggle上面进行模型的使用,且可以直接在 Google cloud上面进行模型的训练与部署工作。

https://www.kaggle.com/models/google/gemma-2/
https://ai.google.dev/gemma?hl=zh-cn
https://storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf更多transformer,VIT,swin tranformer
参考头条号:人工智能研究所
v号:启示AI科技

 动画详解transformer  在线教程

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/402560.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用 Python 解密加密的 PDF 文件

使用 Python 进行 PDF 文件加密-CSDN博客文章浏览阅读89次,点赞2次,收藏2次。定义一个名为的函数,该函数接受三个参数:输入的 PDF 文件路径input_pdf、输出的加密 PDF 文件路径output_pdf和密码password。https://blog.csdn.net/q…

Ubuntu中设置环境变量 PATH 的命令,不生效的问题“PATH=~/bin:$PATH”

1. 知识点 PATH~/bin:$PATH PATH:这是一个环境变量,用于指定操作系统在哪些目录中查找可执行文件。 ~:这是一个特殊的符号,代表当前用户的主目录。 /bin:这通常是存放标准实用程序(如 ls, cp 等&#xff…

为什么神经网络常常是linear+relu的堆叠

特征提取:每一层的线性变换可以看作是在提取输入数据的不同特征。通过堆叠多个这样的层,网络能够学习从原始数据中提取越来越复杂的特征表示非线性关系:单个神经元的线性变换是线性的,但通过引入非线性激活函数(例如Re…

【vue讲解:vue3介绍、setup、ref、reactive、监听属性、生命周期、toRef、setup写法】

1 vue3介绍 # Vue3的变化-vue3完全兼容vue2---》但是vue3不建议用vue2的写法-拥抱TypeScript-之前咱们用的JavaScript---》ts完全兼容js- 组合式API和配置项APIvue2 是配置项apivue3 组合式api# vue4必须要用2 vue3项目创建和启动 # 创建vue3项目-vue-cli 官方不太建议用了…

C语言典型例题40

《C程序设计教程&#xff08;第四版&#xff09;——谭浩强》 题目 例题3.8 运输公司对用户计算运费。路程&#xff08;以s表示&#xff0c;单位为千米&#xff09;&#xff0c;吨/千米运费越低。标准如下&#xff1a; s<250 没…

深度学习中的模型架构详解

在自然语言处理&#xff08;NLP&#xff09;领域&#xff0c;模型架构的不断发展极大地推动了技术的进步。从早期的循环神经网络&#xff08;RNN&#xff09;到长短期记忆网络&#xff08;LSTM&#xff09;、再到卷积神经网络&#xff08;TextCNN&#xff09;和Transformer&…

完美解决html2canvas + jsPDF导出pdf分页内容截断问题

代码地址&#xff1a;https://github.com/HFQ12333/export-pdf.git html2canvas jspdf方案是前端实现页面打印的一种常用方案&#xff0c;但是在实践过程中&#xff0c;遇到的最大问题就是分页截断的问题&#xff1a;当页面元素超过一页A4纸的时候&#xff0c;连续的页面就会…

python处理时间,按照周分割时间段

在实际的开发中&#xff0c;我们经常要设计一些工具类&#xff0c;对于时间来说&#xff0c;有时候需要将其处理成时间段。 例如&#xff0c;对于2024年08月01日到2024年08月16日的时间段&#xff0c;我们如何将其处理成时间段[2024-08-01, 2024-08-03], [2024-08-04, 2024-08-…

OSL 冠名赞助Web3峰会 “FORESIGHT2024”圆满收官

OSL 望为香港数字资产市场发展建设添砖加瓦 &#xff08;香港&#xff0c;2024 年 8 月 13 日&#xff09;- 8 月 11 日至 12 日&#xff0c; 由 香港唯一专注数字资产的上市公司 OSL 集团&#xff08;863.HK&#xff09;冠名赞助&#xff0c;Foresight News、 Foresight Ventu…

基于免疫算法的最优物流仓储点选址方案MATLAB仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.本算法原理 5.完整程序 1.程序功能描述 基于免疫算法的最优物流仓储点选址方案MATLAB仿真。 2.测试软件版本以及运行结果展示 MATLAB2022A版本运行 &#xff08;完整程序运行后无水印&#xff09; 3…

pytorch-AutoEncoders

目录 1. 监督学习&无监督学习1.1 监督学习1.2 无监督学习1.3 为什么需要无监督学习 2. AutoEncoders3. Auto Encoders loss function4. PCA VS Auto Encoders5. Auto Encoders的变种5.1 Denoising Auto Encoders5.2 Dropout AutoEncoders5.3 Adversarial AutoEncoders5.4 V…

html 关于table合并外边框以及自动滚动问题汇总

合并外边框 .tab_main{ width: 100%; height:100%; border: 1px solid #ccc; text-align: center; border-spacing: 0; border-collapse: collapse;//合并外边框 } 固定高度显示上下滑动 <div styleoverflow:scroll;height:100%> <di…

hive之greatest和least函数

1、greatest函数&#xff1a; greatest(col_a, col_b, ..., col_n)比较n个column的大小&#xff0c;过滤掉null或对null值进行处理&#xff0c;当某个column中是string&#xff0c;而其他是int/double/float等时&#xff0c;返回null&#xff1b; 举例&#xff1a; select g…

鸿蒙自定义Tab,可居左显示

最近写鸿蒙项目时&#xff0c;需要用到类似Android的TabLayout控件&#xff0c;鸿蒙官方也有提供类似实现的组件Tabs。但是官方Tabs组件&#xff0c;实在有点鸡肋&#xff0c;首先 TabContent和 TabBar是绑定在一起的放在Tabs里面的&#xff0c;如果UI是TabBar的背景是一个整体…

三十七、【人工智能】【机器学习】【监督学习】- AdaNet算法模型

系列文章目录 第一章 【机器学习】初识机器学习 第二章 【机器学习】【监督学习】- 逻辑回归算法 (Logistic Regression) 第三章 【机器学习】【监督学习】- 支持向量机 (SVM) 第四章【机器学习】【监督学习】- K-近邻算法 (K-NN) 第五章【机器学习】【监督学习】- 决策树…

GPS叉车安全管理系统,远程监控管理车辆,保障叉车资产安全!

叉车的管理和监管一直是一个挑战&#xff0c;九盾叉车监管系统旨在实现对叉车资产的全面监管和管理&#xff0c;结合了GPS车辆定位技术&#xff0c;为您提供了实时、精确的叉车位置信息&#xff0c;从而帮助您更好地管理您的叉车资产。 一、IC卡指纹认证&#xff1a; 确保叉车…

工程数学线性代数(同济大学数学系)第六版(更新中)

第1章 行列式 2 全排列和对换 一、排列及其逆序数 全排列 1个逆序、逆序数 奇排列&#xff0c;偶排列 二、对换 对换&#xff1a;排列中任意两个元素对调 相邻对换&#xff1a;相邻两个元素对换 对换改变排列的奇偶性。 4 行列式的性质 5 行列式按行&#xff08;列&…

【网络】UDP和TCP之间的差别和回显服务器

文章目录 UDP 和 TCP 之间的差别有连接/无连接可靠传输/不可靠传输面向字节流/面向数据报全双工/半双工 UDP/TCP API 的使用UDP APIDatagramSocket构造方法方法 DatagramPacket构造方法方法 回显服务器&#xff08;Echo Server&#xff09;1. 接收请求2. 根据请求计算响应3. 将…

极狐 GitLab 依赖扫描:助力开发者管理软件供应链

极狐GitLab 是 GitLab 在中国的发行版&#xff0c;专门面向中国程序员和企业提供企业级一体化 DevOps 平台&#xff0c;用来帮助用户实现需求管理、源代码托管、CI/CD、安全合规&#xff0c;而且所有的操作都是在一个平台上进行&#xff0c;省事省心省钱。可以一键安装极狐GitL…

C#使用SharGL实现PUMA560机械臂

1、四轴机械臂 下载链接&#xff1a;https://download.csdn.net/download/panjinliang066333/89645225 关键代码 public void DrawRobot1(ref OpenGL gl,float[] angle,float[] yLength,bool isPuma560_Six){//坐标系说明&#xff1a;//①X轴正向&#xff1a;屏幕朝右//②Y轴…