Gemma 模型
Gemma模型是谷歌发布的一个开源模型,任何人都可以免费下载预训练模型,进行使用。而谷歌最近也发布了Gemma 2 模型,模型参数超过了 200 亿大官,果真大模型最后都是拼参数的时候吗。
Gemma 2 模型发布
Gemma 2 模型可以免费在 Google AI Studio上使用,且Google AI Studio上不仅支持Gemma 2模型,还支持Gemini 系列模型,包含Gemini 1.0 pro,Gemini 1.5 pro,Gemini 1.5flash 等模型。当然喜欢代码的小伙伴,也可以直接使用keras-nlp使用Gemma 2 模型。
Gemma 2 在 Google AI studio 中免费使用
刚开始学习 transformer 模型时,其 d_model的维度一直是 512 维度,而现在的大模型为了更加学习到相关的语义信息,除了堆叠更多的 transformer 模块外,还更加了多头注意力机制的维度与头数,更是增加了 embedding 的维度。而Gemma 2 模型embedding 维度最大到达了 4608,可想而知,其模型计算参数是何其的庞大。
Gemma 2 模型参数
与meta 最大的开源模型 llama3 对比,其Gemma 2 90 亿参数的模型已经超越了 llama3 大模型,而 270 亿参数的Gemma 2模型,其性能也是有了大的飞跃。
Gemma 2 与其他开源模型性能对比
Gemma 2模型是Gemma 系列模型的最新版本,其模型新增加了两项功能强大且高效的新功能,并内置了安全方面的改进,任何人可以免费使用Gemma 2模型。可以在Google AI 界面上,点击使用入门进行使用,也可以直接在 Google AI studio 中直接使用。
Gemma 1: 轻量级的文本到文本的模型,仅仅使用了 transformer 模型的解码器,基于大型文本,代码,与数学内容进行模型训练,适用于各种自然语言处理任务。
RecurrentGamma: 从模型名字可以看出,此版本 gemma模型是一个循环神经网络的模型,此模型大大提高了内存的使用效率。
PaliGemma: 此模型是一个开放的视觉语言模型,其灵感来源PaLl-3,一个多模态模型。
CodeGemma:此模型是最初训练的一个模型,其提供强大的代码补全和生成功能,其模型可以直接在本地使用。
Gemma的开源系列已经增加了多种模型,可以直接使用此模型,当然Gemma系列的模型都可以直接使用代码使用,其Gemma-2 的代码如下:
!pip install -U keras-nlp
!pip install -U keras
import keras
import keras_nlp
import numpy as np
gemma_lm = keras_nlp.models.GemmaCausalLM.from_preset("gemma2_instruct_27b_en")
gemma_lm.generate("Keras is a", max_length=30)
gemma_lm.generate(["Keras is a", "I want to say"], max_length=30)
模型直接使用keras_nlp加载预训练模型,然后就可以输入文本进行模型的相关预测功能了。所有开发者可以在 kaggle上面进行模型的使用,且可以直接在 Google cloud上面进行模型的训练与部署工作。
https://www.kaggle.com/models/google/gemma-2/
https://ai.google.dev/gemma?hl=zh-cn
https://storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf更多transformer,VIT,swin tranformer
参考头条号:人工智能研究所
v号:启示AI科技
动画详解transformer 在线教程