大语言模型学习

大语言模型发展历程

当前国内外主流LLM模型

一、国外主流LLM

  1. LLaMA2

    • Meta推出的开源模型,参数规模涵盖70亿至700亿,支持代码生成和多领域任务适配‌57。
    • 衍生版本包括Code Llama(代码生成优化)和Llama Chat(对话场景)‌56。
  2. GPT系列(GPT-3.5/GPT-4)

    • OpenAI开发的闭源模型,以多模态能力和长文本生成为核心优势,广泛应用于对话、代码生成等场景‌38。
  3. BLOOM

    • 由Hugging Face联合多国团队开发,1760亿参数,支持46种自然语言和13种编程语言,强调透明度和开源协作‌5。
  4. PaLM & Claude

    • Google的PaLM和Anthropic的Claude均为闭源模型,前者侧重科学计算,后者强化了推理和多模态能力‌37。
  5. BERT

    • Google早期基于Transformer架构的模型,虽参数较小(约3.4亿),但在自然语言理解任务中仍具影响力‌5。

二、国内主流LLM

  1. 文心一言(ERNIE Bot)

    • 百度研发的知识增强模型,融合万亿级数据和千亿级知识图谱,支持复杂问答和创意生成‌37。
  2. 通义千问

    • 阿里巴巴推出的开源模型(7B版本),基于Transformer架构,优化中英文混合任务处理‌36。
  3. ChatGLM系列

    • 包括ChatGLM-6B(62亿参数)和ChatGLM2-6B,支持双语对话,通过量化技术降低部署成本‌14。
    • 衍生模型VisualGLM-6B(78亿参数)整合视觉与语言模态,实现图文交互‌46。
  4. 盘古大模型

    • 华为开发的多模态模型,覆盖自然语言处理(NLP)、计算机视觉(CV)及科学计算领域‌7。
  5. MiLM-6B

    • 小米研发的64亿参数模型,在C-Eval和CMMLU中文评测中表现优异,尤其擅长STEM科目‌1。
  6. MOSS

    • 支持中英双语的开源对话模型,通过强化学习优化生成质量,适用于通用问答场景‌14。

三、其他特色模型

  • CodeFuse-13B‌:专精代码生成,预训练数据覆盖40+编程语言,HumanEval评测准确率达37.1%‌1。
  • 鹏程·盘古α‌:中文预训练模型,参数规模达千亿级,侧重长文本生成和领域适配‌6。
  • LaWGPT‌:基于中文法律知识微调的模型,适用于法律咨询和文书生成‌6。

大模型不足

当前大模型的不足主要体现在以下方面:

一、技术架构缺陷

  1. 数据与算力依赖过高
    大模型训练需消耗海量多模态数据及算力,万亿级参数规模导致资源投入呈指数级增长‌12。此外,海量小文件存储面临元数据管理挑战,需平衡扩展性与访问延时‌1。

  2. 逻辑推理能力薄弱
    在处理需逻辑推理、数值计算的复杂问题时表现较差,尤其在多步骤推理场景中准确率显著下降‌23。例如20步推理后准确率可能低于36%‌4。

  3. 灾难性遗忘与无记忆性
    训练新任务会损害原有任务性能,且在推理阶段无法记忆历史数据或场景(如自动驾驶需反复重新计算路况)‌23。多数大模型不具备持续记忆能力,依赖有限上下文窗口‌38。


二、知识与应用局限

  1. 知识时效性与领域局限
    大模型知识库仅覆盖训练数据截止时间点内容,无法实时更新‌5。同时缺乏特定领域(如企业私有数据)的专业知识,影响垂直场景应用效果‌5。

  2. 幻觉问题频发
    生成内容存在事实性错误或虚构信息,例如伪造参考文献、错误解答数学题等。这与基于概率预测的Transformer架构特性直接相关‌45。


三、模型可控性不足

  1. 自我纠错能力缺失
    无法识别错误来源(如训练数据缺陷或算法漏洞),更缺乏自主修正机制。典型案例包括GPT-4算术错误后无法定位问题根源‌23。

  2. 黑箱模型可解释性差
    决策过程不透明,导致医疗、法律等关键领域应用受限。调试困难进一步加剧优化挑战‌46。


四、资源与安全风险

  1. 计算成本高昂
    训练与部署需超大规模算力支持,对普通机构形成技术壁垒‌16。

  2. 数据偏见与标注错误
    训练数据隐含社会偏见可能被放大,人工标注错误易导致模型认知偏差‌6。

AIGC产业解析

AIGC基础层

算力基础 数据基础 算法基础

AIGC大模型层

通用基础大模型  行业垂直型基础大模型 业务垂直基础大模型

AIGC工具层

AI Agents 模型平台 模型服务 AutoGPT LangChain

AIGC应用层

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/26855.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Block总结】EfficientViT中的多尺度线性注意力模块即插即用

论文信息 标题: EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense Prediction作者: Han Cai, Junyan Li, Muyan Hu, Chuang Gan, Song Han(MIT/浙江大学/清华大学/MIT-IBM Watson AI Lab)[3][7]GitHub: mit-han-lab/efficientvit…

unsloth报错FileNotFoundError: [WinError 3] 系统找不到指定的路径。

运行平台 Windows 报错信息 Traceback (most recent call last): File “C:\Python312\Lib\site-packages\IPython\core\interactiveshell.py”, line 3577, in run_code exec(code_obj, self.user_global_ns, self.user_ns) File “”, line 1, in runfile(‘D:\python_pr…

【清华大学】DeepSeek从入门到精通完整版pdf下载

DeepSeek从入门到精通.pdf 一共104页完整版 下载链接: https://pan.baidu.com/s/1-gnkTTD7EF2i_EKS5sx4vg?pwd1234 提取码: 1234 或 链接:https://pan.quark.cn/s/79118f5ab0fd 一、DeepSeek 概述 背景与定位 DeepSeek 的研发背景 核心功能与技术特点&#xff08…

如何使用ArcGIS Pro制作横向图例:详细步骤与实践指南

ArcGIS Pro,作为Esri公司推出的新一代地理信息系统(GIS)平台,以其强大的功能和灵活的操作界面,在地理数据处理、地图制作和空间分析等领域发挥着重要作用。 在地图制作过程中,图例作为地图的重要组成部分&…

监督学习单模型—线性模型—LASSO回归、Ridge回归

目标变量通常有很多影响因素,通过各类影响因素构建对目标变量的回归模型,能够实现对目标的预测。但根据稀疏性的假设,即使影响一个变量的因素有很多,其关键因素永远只会是少数。在这种情况下,还用传统的线性回归方法来…

【QT】QLinearGradient 线性渐变类简单使用教程

目录 0.简介 1)qtDesigner中 2)实际执行 1.功能详述 3.举一反三的样式 0.简介 QLinearGradient 是 Qt 框架中的一个类,用于定义线性渐变效果(通过样式表设置)。它可以用来填充形状、背景或其他图形元素&#xff0…

攻防世界GFSJ1184_welcome_CAT_CTF

题目 附件: 两个文件client和server Get Flag Exeinfo File分析 file client client: ELF 64-bit LSB pie executable, x86-64, version 1 (SYSV), dynamically linked, interpreter /lib64/ld-linux-x86-64.so.2, for GNU/Linux 3.2.0, BuildID[sha1]6045aa1ba5…

EL表达式和JSTL标签

目录 1. EL表达式 1.1. EL表达式概述 1.2. EL表达式运算 1.3. EL表达式操作对象 1.4. EL表达式内置对象 jsp 9个 11个 1.4.1. 参数隐藏对象 1.4.2. 域隐藏对象 1.4.3. PageContext对象 2. JSTL标签 2.1. JSTL概述 2.1.1. 什么是JSTL 2.1.2. 导入标签库 2.2. JSTL核…

PhotoShop学习01

了解Photoshop 这里省略了Photoshop的软件安装,请自行查找资源下载。 1.打开图片 下图为启动photoshop后出现的界面,我们可以通过创建新文件或打开已有文件来启用photoshop的工作界面。 可以通过左边的按钮进行新文件的创建或打开已有文件。 也可以点…

LabVIEW虚拟弗兰克赫兹实验仪

随着信息技术的飞速发展,虚拟仿真技术已经成为教学和研究中不可或缺的工具。开发了一种基于LabVIEW平台开发的虚拟弗兰克赫兹实验仪,该系统不仅能模拟实验操作,还能实时绘制数据图形,极大地丰富了物理实验的教学内容和方式。 ​ …

【TI毫米波雷达】DCA1000的ADC原始数据C语言解析及FMCW的Python解析2D-FFT图像

【TI毫米波雷达】DCA1000的ADC原始数据C语言解析及FMCW的Python解析2D-FFT图像 文章目录 ADC原始数据C语言解析Python的2D-FFT图像附录:结构框架雷达基本原理叙述雷达天线排列位置芯片框架Demo工程功能CCS工程导入工程叙述Software TasksData PathOutput informati…

【数据结构】堆与二叉树

一、树的概念 1.1 什么是树? 树是一种非线性的数据结构,其由 n 个 ( n > 0 ) 有限节点所组成的一个有层次关系的集合。之所以称其为树,是因为其逻辑结构看起来像是一颗倒挂的树。 在树中,有一个特殊的节点称为根节点&#xf…

从零开始开发纯血鸿蒙应用之语音朗读

从零开始开发纯血鸿蒙应用 〇、前言一、API 选型1、基本情况2、认识TextToSpeechEngine 二、功能集成实践1、改造右上角菜单2、实现语音播报功能2.1、语音引擎的获取和关闭2.2、设置待播报文本2.3、speak 目标文本2.4、设置语音回调 三、总结 〇、前言 中华汉字洋洋洒洒何其多…

8 SpringBoot进阶(上):AOP(面向切面编程技术)、AOP案例之统一操作日志

文章目录 前言1. AOP基础1.1 AOP概述: 什么是AOP?1.2 AOP快速入门1.3 Spring AOP核心中的相关术语(面试)2. AOP进阶2.1 通知类型2.1.1 @Around:环绕通知,此注解标注的通知方法在目标方法前、后都被执行(通知的代码在业务方法之前和之后都有)2.1.2 @Before:前置通知,此…

人大金仓国产数据库与PostgreSQL

一、简介 在前面项目中,我们使用若依前后端分离整合人大金仓,在后续开发过程中,我们经常因为各种”不适配“问题,但可以感觉得到大部分问题,将人大金仓视为postgreSQL就能去解决大部分问题。据了解,Kingba…

Deepseek 模型蒸馏

赋范课堂: https://www.bilibili.com/video/BV1qUN8enE4c/

经验分享:用一张表解决并发冲突!数据库事务锁的核心实现逻辑

背景 对于一些内部使用的管理系统来说,可能没有引入Redis,又想基于现有的基础设施处理并发问题,而数据库是每个应用都避不开的基础设施之一,因此分享个我曾经维护过的一个系统中,使用数据库表来实现事务锁的方式。 之…

【前端基础】1、HTML概述(HTML基本结构)

一、网页组成 HTML:网页的内容CSS:网页的样式JavaScript:网页的功能 二、HTML概述 HTML:全称为超文本标记语言,是一种标记语言。 超文本:文本、声音、图片、视频、表格、链接标记:由许许多多…

MongoDB—(一主、一从、一仲裁)副本集搭建

MongoDB集群介绍: MongoDB 副本集是由多个MongoDB实例组成的集群,其中包含一个主节点(Primary)和多个从节点(Secondary),用于提供数据冗余和高可用性。以下是搭建 MongoDB 副本集的详细步骤&am…

Hive-06之函数 聚合Cube、Rollup、窗口函数

1、Hive函数介绍以及内置函数查看 内容较多,见《Hive官方文档》 https://cwiki.apache.org/confluence/display/Hive/LanguageManualUDF 1)查看系统自带的函数 hive> show functions; 2)显示自带的函数的用法 hive> desc function…