大语言模型学习及复习笔记(1)语言模型的发展历程

1.大模型进入人们视野

ChatGPT 于2022年11月底上线

模型名称

发布时间

核心突破

GPT-3

2020年6月

首款千亿参数模型,少样本学习

GPT-3.5-Turbo

2022年11月

对话能力优化,用户级应用落地

GPT-4

2023年3月

多模态、强逻辑推理

GPT-4o / GPT-4 Omni

2024年5月

全能输入输出,实时联网

o1-preview2024年9月

2.什么是大语言模型

语言模型的核心功能是通过概率建模预测自然语言文本的生成规律。传统语言模型(如N-gram模型)主要基于统计方法,通过局部上下文预测词序列的分布。然而,大语言模型(Large Language Model, LLM) 的出现标志着从单纯的语言建模向复杂任务求解的跃迁,其本质是通过海量数据与深度学习技术构建的通用智能系统。

2.1 传统语言模型的局限性

  1. 知识依赖性强:需依赖外部知识库(如知识图谱)补充背景信息,难以自主理解隐含语义。
  1. 泛化能力不足:需针对特定任务微调模型,适配成本高且跨领域迁移效果差。
  1. 推理能力受限:处理复杂逻辑(如多步推理、因果分析)时表现较弱,需调整模型结构或引入额外训练策略。

2.2 大语言模型的技术突破

大语言模型通过以下创新解决了传统模型的瓶颈:

  1. 规模跃升:参数规模达百亿至万亿级,训练数据覆盖多领域文本,可捕捉深层语言规律与常识。

  1. 统一架构:基于Transformer的自注意力机制,支持长距离依赖建模与上下文感知,无需任务特定结构调整。

  1. 预训练范式:通过海量无标注文本的自监督学习(如掩码语言建模),获得通用语义表示能力,显著降低下游任务适配成本。

  1. 涌现能力:在零样本/少样本场景下展现复杂推理、知识联想等能力,如代码生成、多轮对话。

2.3 传统模型的本质差异

维度传统语言模型大语言模型
参数规模百万至千万级百亿至万亿级
训练数据有限领域标注数据跨领域无标注文本(如网页、书籍)
任务适配需针对性微调通过提示工程直接调用通用能力
推理机制局部上下文依赖全局语义建模与逻辑链生成

应用与挑战

大语言模型已广泛应用于机器翻译、文本生成、智能问答等领域,但其仍面临幻觉问题(生成不准确内容)、算力需求高、伦理风险等挑战。未来,结合外部知识库与多模态数据可能成为进一步突破的方向。

3.大语言模型的定义和相关技术

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/33120.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL中count(*)与count(字段区别)

核心规则 表达式 统计规则 COUNT(*) 统计所有行数(包括所有字段为NULL的行)。 COUNT(字段) 仅统计该字段不为NULL的行数(若字段为NULL则自动忽略该行)。 误区 A表连接B表,若A和B是一对多的关系时,会出现…

【Unity】在项目中使用VisualScripting

1. 在packagemanager添加插件 2. 在设置中进行初始化。 Edit > Project Settings > Visual Scripting Initialize Visual Scripting You must select Initialize Visual Scripting the first time you use Visual Scripting in a project. Initialize Visual Scripting …

vue 仿deepseek前端开发一个对话界面

后端:调用deepseek的api,所以返回数据格式和deepseek相同 {"model": "DeepSeek-R1-Distill-Qwen-1.5B", "choices": [{"index": 0, "delta": {"role": "assistant", "cont…

基于Spring Boot的小区疫情购物系统的设计与实现(LW+源码+讲解)

专注于大学生项目实战开发,讲解,毕业答疑辅导,欢迎高校老师/同行前辈交流合作✌。 技术范围:SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容:…

【openwebui 搭建本地知识库(RAG搭建本地知识库)】

安装准备 openwebui 这个本地安装之前写过使用python安装。也可以直接用docker 命令 docker run --rm -d \-p 3080:8080 \-p 3081:8081 \-e WEBUI_AUTHtrue \-e DEFAULT_LOCALEcn \-e GLOBAL_LOG_LEVEL"INFO" \-e AIOHTTP_CLIENT_TIMEOUT100 \--privilegedtrue \-…

Linux 提权

文章目录 前言1. 内核漏洞提权脏牛(CVE-2016-5195) 2. 不安全的系统配置项2.1 SUID/SGID提权2.2 sudo提权2.3 定时任务提权2.4 capabilities提权 3. 第三方软件提权Tomcat managerNginx本地提权(CVE-2016-1247)Redis未授权 4. 参考…

谷粒商城:性能压测JVM堆区

目录 Kit Apache JMeter VisualVM 堆内存 jvm内存模型 垃圾回收(Garbage Collection, GC) 新对象分配内存 GC步骤 MinorGC 性能优化 影响因素 优化 nginx动静分离 优化三级分类获取 Jvm参数配置堆区 测试 Kit Apache JMeter 压力测试&…

TCP协议支持全双工原因TCP发送接收数据是生产者消费者模型

一、TCP支持全双工的原因 TCP协议支持全双工,即使用TCP协议进行通信时,服务端和客户端可以同时进行数据的发送和接收,互不干扰,实现同时双向传输数据。 这是因为使用TCP协议通信时,读写套接字的文件描述符既用来发送…

观成科技:​加密C2框架Platypus流量分析

一、工具介绍 Platypus 是一款支持多会话的交互式反向 Shell 管理器。在实际的渗透测试中,为了解决 Netcat/Socat 等工具在文件传输、多会话管理方面的不足,该工具在多会话管理的基础上增加了在渗透测试中能更好发挥作用的功能(如:交互式 Sh…

在 C# 中,is null 和 == null ‌不完全等价‌

最近遇到了一个看似奇怪的问题,判断一个对象是否为null,我使用了null来判断,结果他是null但是仍然进入了判断。 经过讨论和验证,发现使用is null 可以解决问题,于是查阅了资料。 在 C# 中,is null 和 nul…

go语言zero框架拉取内部平台开发的sdk报错的修复与实践

在开发过程中,我们可能会遇到由于认证问题无法拉取私有 SDK 的情况。这种情况常发生在使用 Go 语言以及 Zero 框架时,尤其是在连接到私有平台,如阿里云 Codeup 上托管的 Go SDK。如果你遇到这种错误,通常是因为 Go 没有适当的认证…

VBA+FreePic2Pdf 找出没有放入PDF组合的单个PDF工艺文件

设计部门针对某个项目做了一个工艺汇总报告,原先只要几十个工艺文件,组合成一个PDF,但后来要求要多放点PDF进去,但工艺文件都混在一起又不知道哪些是重复的,找上我让我帮忙处理一下,我开始建议让她重新再组…

Webservice如何调用

webservice调用方式: (1)http方式调用 请求头增加Content-type:text/xml 或application/soapxml SOAPAction:方法名 请求body以xml字符串传递,xml格式定义 返回以xml字符串返回,xml某个字段是一个json字符串。 入…

2025-03-10 吴恩达机器学习1——机器学习概述

文章目录 1 监督学习1.1 回归1.2 分类 2 无监督学习2.1 聚类2.2 异常检测2.3 降维 3 使用 Jupyter Notebook ​ 1959 年,Arthur Samuel 将机器学习定义如下: ​ Field of study that gives computers the ability to learn without being explicitly pro…

Python 进程与线程-分布式进程

目录 分布式进程 小结 分布式进程 在Thread和Process中,应当优选Process,因为Process更稳定,而且,Process可以分布到多台机器上,而Thread最多只能分布到同一台机器的多个CPU上。 Python的multiprocessing模块不但支…

使用 Excel 实现绩效看板的自动化

引言 在日常工作中,团队的绩效监控和管理是确保项目顺利进行的重要环节。然而,面临着以下问题: ​数据分散:系统中的数据难以汇总,缺乏一个宏观的团队执行情况视图。​看板缺失:系统本身可能无法提供合适…

Unity中WolrdSpace下的UI展示在上层

一、问题描述 Unity 中 Canvas使用World Space布局的UI,想让它不被3d物体遮挡,始终显示在上层。 二、解决方案 使用shader解决 在 UI 的材质中禁用深度测试(ZTest),强制 UI 始终渲染在最上层。 Shader "Custo…

uni-app学习笔记——自定义模板

一、流程 1.这是一个硬性的流程,只要按照如此程序化就可以实现 二、步骤 1.第一步 2.第二步 3.第三步 4.每一次新建页面,都如第二步一样;可以选择自定义的模版(vue3Setup——这是我自己的模版),第二步的…

网络安全防护总体架构 网络安全防护工作机制

1 实践内容 1.1 安全防范 为了保障"信息安全金三角"的CIA属性、即机密性、完整性、可用性,信息安全领域提出了一系列安全模型。其中动态可适应网络安全模型基于闭环控制理论,典型的有PDR和P^2DR模型。 1.1.1 PDR模型 信息系统的防御机制能…

tomato靶场通关攻略

1.打开tomato靶机和kali虚拟机 2.运用kali扫描靶机ip 3.浏览器访问靶机ip 4.kali dirb扫描敏感文件 5.依次查看这几个文件,发现antibot_image下有文件info.php,发现一个被注释的get型文件包含漏洞,参数为image 6.查看日志文件 http://192.…