Llama开源代码详细解读(1):工具包

本人纯纯新手,因此通过Llama开源代码希望能对LLM有个大致认识。

工具包介绍

from transformers.utils import (add_start_docstrings,add_start_docstrings_to_model_forward,is_flash_attn_available,logging,replace_return_docstrings,
)
from transformers.models.llama.configuration_llama import LlamaConfig

# coding=utf-8
  • utf-8是用于表示unicode字符的编码方式,是互联网标准编码之一。utf-8用1-4个字节表示每个字符。单字节的字符,第一位设为0,后面7位为该符号的Unicode码,对于英文字母,unicode与ASCII编码相同。对于n字节的字符,第一个字节的前n位均设为1,第n+1位设为0,后面字节的前两位均设置为10,剩下的没有提及的,就是该字符的Unicode码。

import math
  • math工具包提供了对于数学函数的访问,具体在接下来用到再说。

from typing import List, Optional, Tuple, Union

这四个模块是类型提示模块,允许开发者在代码中指定变量、函数参数和返回值的预期类型,从而提高代码的可读性,使得代码更具自文档性。


import torch
import torch.nn.functional as F
  • torch.nn.functional是torch中的一个子模块,提供了一组函数式的接口,用于实现各种神经网络操作。具体等到用到的时候再看。

import torch.utils.checkpoint
  • torch.utils.checkpoint是torch中的一个训练模块,使用内存节约技术,略微增加计算量,减少内存消耗。基本思想是:前向传播的过程中不保存中间激活值,在反向传播的时候重新计算这些激活值。
from torch import nn
from torch.nn import BCEWithLogitsLoss, CrossEntropyLoss, MSELoss
  • torch.nn提供了多种损失函数。
  • BCEWithLogitsLoss 是用于二分类任务的损失函数,将二分类交叉熵损失和sigmoid函数结合在了一起,从而提高数值稳定性。
  • CrossEntropyLoss是用于多分类任务的损失函数。
  • MSELoss是用于回归任务的损失函数,它计算预测值和真实值之间的均方误差。

import pdb
  • pdb是python内置的调试器,可以逐行执行代码,设置断点,检查变量值等。
from transformers.activations import ACT2FN
  • ACT2FN是hugging_face中的一个字典,负责将激活函数的名称映射到相应函数。

from transformers.modeling_outputs import BaseModelOutputWithPast, CausalLMOutputWithPast, SequenceClassifierOutputWithPast
  • transformers.modeling_outputs定义了一些常见的模型输出类,封装了模型的输出,并提供了更加快捷的访问方式,以上三个用于不同的模型和任务。
  • BaseModelOutputWithPast通常用于基础模型(如transformer)的输出,包含主要的输出(如最后一个隐藏层状态)和额外的一些可选信息(例如,过去的隐藏状态)。
  • CausalLMOutputWithPast通常用于因果语言模型(如GPT)
  • SequenceClassifierOutputWithPast通常用于序列分类模型(如BERT),包含分类logits(分类任务中未经过处理的原始分数)和过去的隐藏状态。

from transformers.modeling_utils import PreTrainedModel
  • hugging_face用于加载预训练模型的库。

from transformers.pytorch_utils import ALL_LAYERNORM_LAYERS
  • ALL_LAYERNORM_LAYERS包含了所有可能的LayerNorm层(归一化层)的类型。

from transformers.utils import (add_start_docstrings,add_start_docstrings_to_model_forward,is_flash_attn_available,logging,replace_return_docstrings,
)
  • add_start_docstrings为类的文档字符串提供通用的开头文档。
  • add_start_docstrings_to_model_forward为模型的forward方法提供开头的文档字符串。
  • is_flash_attn_available检查Flash Attention是否可用,FA是一种优化注意力机制实现,能显著加快transformer模型的训练与推理速度。
  • logging用于在使用transformer开发时生成和管理日志消息。
  • replace_return_docstrings用于替换函数或者方法的返回值文档字符串。

from transformers.models.llama.configuration_llama import LlamaConfig
  • LlamaConfig用于配置Llama参数。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/386439.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java的日期类

1.第一代日期类 ① Date类:精确到毫秒,代表特定的瞬间 public static void main(String[] args) { // 获取当前系统时间 // 这里的Date类是在java.util包 // 默认输出的格式是国外的格式Date date new Date();System.out.println…

C#体检系统源码,医院健康体检系统PEIS,C#+VS2016+SQLSERVER

体检中心/医院体检科PEIS系统源码,C#健康体检信息系统源码,PEIS源码 开发环境:C/S架构C#VS2016SQLSERVER 2008 检前: 多种预约方式网站预约、电话预约、微信平台预约及检前沟通,提前制作套餐,客人到达体检…

【原创】java+ssm+mysql医生信息管理系统设计与实现

个人主页:程序员杨工 个人简介:从事软件开发多年,前后端均有涉猎,具有丰富的开发经验 博客内容:全栈开发,分享Java、Python、Php、小程序、前后端、数据库经验和实战 开发背景: 随着信息技术的…

【七】Hadoop3.3.4基于ubuntu24的分布式集群安装

文章目录 1. 下载和准备工作1.1 安装包下载1.2 前提条件 2. 安装过程STEP 1: 解压并配置Hadoop选择环境变量添加位置的原则检查环境变量是否生效 STEP 2: 配置Hadoop2.1. 修改core-site.xml2.2. 修改hdfs-site.xml2.3. 修改mapred-site.xml2.4. 修改yarn-site.xml2.5. 修改hado…

【Linux从青铜到王者】tcp协议2

滑动窗口 滑动窗口是什么 上篇提到如果两端发送数据如果是一发一收那就是串行,效率很低,所以可以一次发送多个报文,一次也可以接受多个报文,可以大大的提高性能(其实是将多个段的等待时间重叠在一起了) 那么是怎么发…

解锁人工智能学习中的数学密钥

一、启航:奠定数学基础 1. 线性代数:AI的入门语言 学习目标:掌握向量、矩阵的基本概念及运算,理解线性空间、线性变换及特征值、特征向量的意义。学习建议:从基础教材入手,如《线性代数及其应用》&#x…

【黄啊码】零代码动手创建ModelScope Agent

还没开始学习,先来回复一下,什么是Agent Agent包含的模块 好了,开始发放干货: 1、创建通义千问API (新注册用户有一定的限时免费额度) 2、登录阿里云账号,打开 DashScope管理控制台,开通 DashScope灵积模…

WinUI vs WPF vs WinForms: 三大Windows UI框架对比

1.前言 在Windows平台上开发桌面应用程序时,WinUI、WPF和WinForms是三种主要的用户界面框架。每种框架都有其独特的特点和适用场景。本文将通过示例代码,详细介绍这些框架的优缺点及其适用场景,帮助dotnet桌面开发者更好地选择适合自己项目的…

使用EasyAR打包安卓操作注意

EasyAR for Scene 4.6.3 丨Unity2020.3.15f2 打包Unity注意事项 一、默认渲染管线 官方参考链接:ARFoundation 简单注意 1.打包设置为Android平台 2.PackageName和EasyAR中保持一致 3.Scripting Backend设置为IL2CPP,以及设置为ARM64 4.取消Auto …

数据结构·红黑树

1. 红黑树的概念 红黑树,是一种搜索二叉树,但在每个节点上增加一个存储位表示节点的颜色,可以是Red或Black。通过对任意一条从根到叶子的路径上各个节点着色方式的限制,红黑树确保没有一条路径会比其他路径长出两倍,因…

秋招突击——7/29——复习{有塔游戏——关联传递性}——新作{随机链表的复制、合并K个升序链表,二叉树——二叉树的中序遍历、二叉树的最大深度、反转二叉树}

文章目录 引言复习有塔游戏——关联传递性实现复习实现参考实现 新作随机链表的复制个人实现参考实现 排序链表个人实现参考实现 二叉树章节二叉树的中序遍历个人实现 二叉树的最大深度个人实现参考实现 反转二叉树个人实现参考实现 总结 引言 旅游完回来了,今天继…

Matlab编程资源库(14)常微分方程初值问题的数值解法

一、 龙格-库塔法简介 龙格-库塔法(Runge-Kutta method)是一种常用的数值解微分方程的方法,由德国数学家卡尔龙格(Carl Runge)和马丁威尔海尔姆库塔(Martin Wilhelm Kutta)在20世纪…

IDEA 本地有jar包依赖文件,但是所有引用的jar包全部爆红

前端时间 看源码,下载源码额按钮不见了,折腾了很久,遂打算重新安装idea,但是重新安装后,发现代码全都爆红,按照晚上说的删除idea 文件夹,idea缓存删除,都不好使,但是看到…

【JavaScript】`Map` 数据结构

文章目录 一、Map 的基本概念二、常见操作三、与对象的对比四、实际应用场景 在现代 JavaScript 中,Map 是一种非常重要且强大的数据结构。与传统的对象(Object)不同,Map 允许您使用各种类型的值作为键,不限于字符串或…

机器学习算法——常规算法,在同的业务场景也需要使用不同的算法(一)

👨‍💻个人主页:开发者-曼亿点 👨‍💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍💻 本文由 曼亿点 原创 👨‍💻 收录于专栏&#xff1a…

【Vulnhub系列】Vulnhub_SecureCode1靶场渗透(原创)

【Vulnhub系列靶场】Vulnhub_SecureCode1靶场渗透 原文转载已经过授权 原文链接:Lusen的小窝 - 学无止尽,不进则退 (lusensec.github.io) 一、环境配置 1、从百度网盘下载对应靶机的.ova镜像 2、在VM中选择【打开】该.ova 3、选择存储路径&#xff0…

“数说”巴黎奥运会上的“中国智造”成果

引言:随着“中国智造”在欧洲杯上方兴未艾,在巴黎奥运会上,中国智造继续以多种形式和领域展现了其强大的实力和创新能力。以格力公开表示将为巴黎奥运村提供345台格力空调,为中国制造的清凉送至巴黎事件拉开中国制造闪亮巴黎奥运会…

浅谈取样器之调试取样器

浅谈取样器之调试取样器 JMeter的调试取样器(Debug Sampler)是一个非常实用的工具,它帮助用户在测试计划执行过程中获取详细的内部状态信息,这对于诊断脚本错误、理解变量作用域、以及确认配置是否按预期工作至关重要。调试取样器可以显示JMeter变量、属…

将gitee 上的nvim 配置 从gitee 上下载下来,并配置虚拟机

首先是下载 gitee 上的配置。 然后是 配置 tmux 然后是配置nvim . 1 在init.lua 文件中注释掉所有的与第三方插件有关的内容。 2 在packer 的文件中 , 注释掉所有的与 第三方插件有关的代码。 3 首先要保证 packer 能够正确的安装。 4 然后开始 安装 所有的插件…

【SOC 芯片设计 DFT 学习专栏 -- DFT DRC规则检查】

请阅读【嵌入式及芯片开发学必备专栏】 请阅读【芯片设计 DFT 学习系列 】 如有侵权,请联系删除 转自: 芯爵ChipLord 2024年07月10日 12:00 浙江 文章目录 概述DRC的概念Tessent DRC检查的概述时钟相关检查扫描相关检查BIST规则检查预DFT时钟规则检查 …