支持534种语言，开源大语言模型MaLA-500

支持534种语言，开源大语言模型MaLA-500

news/2024/12/25 17:01:31/文章来源:https://blog.csdn.net/weixin_57291105/article/details/136044131

无论是开源的LLaMA 2还是闭源的GPT系列模型，功能虽然很强大，但对语言的支持和扩展比较差，例如，二者都是以英语为主的大模型。

为了提升大模型语言的多元化，慕尼黑大学、赫尔辛基大学等研究人员联合开源了，目前支持语言最多的大模型之一MaLA-500。

MaLA-500以LLaMA 2为基础模型，再用多语言数据库Glot500-c进行语言扩展训练，支持语言达到了惊人的534种。

开源地址：https://huggingface.co/MaLA-LM/mala-500

论文地址：https://arxiv.org/abs/2401.13303

训练数据

研究人员选用了开源数据集Glot500-c对MaLA-500进行了语言扩展训练。该数据集包含了534种语言,涵盖47种不同种族语言,数据量高达2万亿tokens。

研究人员表示，选择Glot500-c数据集的原因在于,可以大幅扩展现有语言模型的语言覆盖范围,并包含极其丰富的语言家族,这对于模型学习语言内在的语法和语义规律帮助巨大。

此外,虽然一些高资源语言的比例相对较低,但Glot500-c的整体数据量对训练大规模语言模型而言足够用。在后续的预处理中,又对语料数据集进行了加权随机采样,以增加低资源语言在训练数据中的比例,让模型更加聚焦特定语言。

基础模型LLaMA 2

MaLA-500选择了目前最知名的开源大语言模型之一LLaMA 2-7B作为基础模型，并进行了两大技术点创新。

1）增强词汇表，研究人员通过Glot500-c数据集，训练了一个多语言分词器,将LLaMA 2的原英文词汇表扩展到了260万,大幅增强了模型对非英语和低资源语言的适配能力。

2）模型增强，使用了LoRA技术在LLaMA 2的基础上进行低秩适配。只训练适配矩阵而冻结基础模型权重,可以高效地实现模型在新语言上的持续学习能力，同时保留模型原有的知识。

训练流程

训练方面，研究人员用了24张N卡A100 GPU进行训练，并使用了包括Transformers、PEFT和DeepSpeed三个主流深度学习框架。

其中,DeepSpeed提供了分布式训练的支持,可以实现模型并行;PEFT实现了高效的模型微调;Transformers提供了模型功能的实现，例如，文本生成、提示词理解等。

为了提升训练的高效性，MaLA-500还使用了各种显存和计算优化算法,如ZeRO冗余优化器,可最大化利用GPU算力资源;以及混合精度训练的bfloat16数格式加速训练流程。

此外，研究人员还对模型参数进行了大量优化，使用了学习率为2e-4的常规SGD训练,并使用了0.01的L2权重衰减以防止模型过大，出现过拟合、内容输出不稳定等情况。

为了测试MaLA-500的性能，研究人员在SIB-200等数据集上进行了综合实验。

结果显示，相比原始LLaMA 2模型,MaLA-500在主题分类等评测任务上的准确率提高了12.16%，这说明MaLA-500的多语言优于，现有的众多开源大语言模型。

本文素材来源MaLA-500论文，如有侵权请联系删除

END

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/253819.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Windows 安装 MySQL 最新最简教程

Windows 安装 MySQL 最新最简教程

Windows 安装 MySQL 最新最简教程官网地址 https://dev.mysql.com/downloads/mysql/下载 MySQL zip 文件配置 MySQL1、解压文件 2、进入 bin 目录搜索栏输入 cmd 回车进入命令行 C:\Users\zhong\Desktop\MySQL\mysql-8.3.0-winx64\mysql-8.3.0-winx64\bin 注意这里是你自己…

阅读更多...

Java图形化界面编程——Container容器笔记

Java图形化界面编程——Container容器笔记

2.3 Container容器 2.3.1 Container继承体系 Winow是可以独立存在的顶级窗口,默认使用BorderLayout管理其内部组件布局;Panel可以容纳其他组件，但不能独立存在，它必须内嵌其他容器中使用，默认使用FlowLayout管理其内部组件布局；S…

阅读更多...

物理信息神经网络（PINN）: 将物理知识融合到深度学习中

物理信息神经网络（PINN）: 将物理知识融合到深度学习中

物理信息神经网络（PINN）: 将物理知识融合到深度学习中物理信息神经网络（PINN）简介PINN的工作原理PINN模型如何利用物理法则指导模型训练1. 定义物理问题和相应的物理定律2. 构建神经网络3. 定义损失函数数据误差项 (Data-fidelit…

阅读更多...

Flask 入门6：模板继承

Flask 入门6：模板继承

1. 一个网站中，大部分网页的模块是重复的，比如顶部的导航栏，底部的备案信息。如果在每个页面中都重复的去写这些代码，会让项目变得臃肿，提高后期的维护成本。比较好的做法是，通过模板继承，把一…

阅读更多...

Netty中使用编解码器框架

Netty中使用编解码器框架

目录什么是编解码器？ 解码器将字节解码为消息将一种消息类型解码为另一种 TooLongFrameException 编码器将消息编码为字节将消息编码为消息编解码器类通过http协议实现SSL/TLS和Web服务什么是编解码器？ 每个网络应用程序都必须定义如何…

阅读更多...

解决CORS错误（Spring Boot）

解决CORS错误（Spring Boot）

记录一下错误，以博客的形式前言跨域（Cross-Origin）是指在Web开发中，当一个Web应用试图从一个源（域名、协议、端口组合）获取资源时，该请求的目标与当前页面的源不同。具体来说，当一…

阅读更多...

25、数据结构/二叉树相关练习20240207

25、数据结构/二叉树相关练习20240207

一、二叉树相关练习请编程实现二叉树的操作 1.二叉树的创建 2.二叉树的先序遍历 3.二叉树的中序遍历 4.二叉树的后序遍历 5.二叉树各个节点度的个数 6.二叉树的深度代码： #include<stdlib.h> #include<string.h> #include<stdio.h> ty…

阅读更多...

SolidWorks学习笔记——入门知识2

SolidWorks学习笔记——入门知识2

目录建出第一个模型 1、建立草图 2、选取中心线 3、草图绘制 4、拉伸特征的显示与隐藏改变特征名称 5、外观 6、渲染建出第一个模型 1、建立草图图1 建立草图按需要选择基准面。 2、选取中心线图2 选取中心线 3、草图绘制以对称图形举例，先画出…

阅读更多...

蓝桥杯---生日蜡烛

蓝桥杯---生日蜡烛

某君从某年开始每年都举办一次生日party，并且每次都要吹熄与年龄相同根数的蜡烛，现在算起来，他一共吹熄了236根蜡烛。请问,他从多少岁开始过生日party的? 请填写他开始过生日 party的年龄数。注意:你提交的应该是一个整数，不要…

阅读更多...

路由器如何映射端口映射？

路由器如何映射端口映射？

在现代互联网中，随着网络应用的不断发展，很多用户需要进行远程访问或搭建服务器来满足自己的需求。由于网络安全的原因，直接将内网设备暴露在公网中是非常危险的。为了解决这个问题，路由器映射端口映射技术应运而生。本文将介绍什…

阅读更多...

redis之布隆过滤

redis之布隆过滤

目录 1、redis之布隆过滤 2、布隆过滤器原理 3、布隆过滤器使用步骤初始化bitmap 添加占坑位判断是否存在圜 1、redis之布隆过滤布隆过滤：有一个初值都为0的bit数组和多个哈希函数构成，用来快速判断集合中是否存在某个元素。目的：减…

阅读更多...

新型RedAlert勒索病毒针对VMWare ESXi服务器

新型RedAlert勒索病毒针对VMWare ESXi服务器

前言 RedAlert勒索病毒又称为N13V勒索病毒，是一款2022年新型的勒索病毒，最早于2022年7月被首次曝光，主要针对Windows和Linux VMWare ESXi服务器进行加密攻击，到目前为止该勒索病毒黑客组织在其暗网网站上公布了一名受害者&#x…

阅读更多...

2024年：用OKR管理你的生活

2024年：用OKR管理你的生活

在科技高速发展的时代，越来越多的企业和团队开始采用OKR（Objectives and Key Results）管理方法来设定目标并跟踪进度。你是否想过，将OKR理念引入个人生活，以更有效地实现人生目标？本文将探讨如何在2024年运…

阅读更多...

国产三维剖面仪—MPAS-100相控参量阵浅地层剖面仪

国产三维剖面仪—MPAS-100相控参量阵浅地层剖面仪

最近声学所东海站邹博士发来了他们最新的浅地层剖面仪—MPAS-100相控参量阵浅地层剖面仪的资料，市场型号GeoInsight，委托Ocean Physics Technology公司销售，地大李师兄的公司负责技术支持。 MPAS-100相控参量阵浅地层剖面仪就是俗称的三维浅…

阅读更多...

『运维备忘录』之 Ansible 自动化运维工具

『运维备忘录』之 Ansible 自动化运维工具

一、简介 Ansible是基于Python开发，集合了众多运维工具（puppet、cfengine、chef、func、fabric）的优点，实现了批量系统配置、批量程序部署、批量运行命令等功能的自动化运维工具，广泛用于配置管理、应用部署以及任务协…

阅读更多...

07:Kubectl 命令详解｜K8S资源对象管理｜K8S集群管理（重难点）

07:Kubectl 命令详解｜K8S资源对象管理｜K8S集群管理（重难点）

Kubectl 命令详解｜K8S资源对象管理｜K8S集群管理 kubectl管理命令kubectl get 查询资源常用的排错命令kubectl run 创建容器 POD原理pod的生命周期 k8s资源对象管理资源文件使用资源文件管理对象Pod资源文件deploy资源文件集群调度的规则扩容与缩减集群更…

阅读更多...

计算机网络-无线通信技术与原理

计算机网络-无线通信技术与原理

一般我们网络工程师接触比较多的是交换机、路由器，很少涉及到WiFi和无线设置，但是呢在实际工作中一般企业也是有这些需求的，这就需要我们对于无线的一些基本配置也要有独立部署能力，今天来简单了解一下。一、无线网络基础 1.1 无…

阅读更多...

Linux（三）--文件系统

Linux（三）--文件系统

Linux命令简介 [rootlocalhost ~]# 表示 Linux 系统的命令提示符。 []：这是提示符的分隔符号，没有特殊含义。 root：显示的是当前的登录用户，笔者现在使用的是 root 用户登录。 ：分隔符号，没有特殊含义。 l…

阅读更多...

PyTorch 2.2 中文官方教程（四）

PyTorch 2.2 中文官方教程（四）

torch.nn 到底是什么？ 原文：pytorch.org/tutorials/beginner/nn_tutorial.html 译者：飞龙协议：CC BY-NC-SA 4.0 注意点击这里下载完整示例代码作者： Jeremy Howard，fast.ai。感谢 Rachel Thomas 和 Fr…

阅读更多...

Vue.js设计与实现(霍春阳)

Vue.js设计与实现(霍春阳)

Vue.js设计与实现 (霍春阳) 电子版获取链接：Vue.js设计与实现(霍春阳) 编辑推荐适读人群 ：1.对Vue.js 2/3具有上手经验，且希望进一步理解Vue.js框架设计原理的开发人员； 2.没有使用过Vue.js，但对Vue.js框架设计感兴趣…

阅读更多...

最新文章

推荐文章