大语言模型学习及复习笔记（1）语言模型的发展历程

1.大模型进入人们视野

ChatGPT 于2022年11月底上线

模型名称	发布时间	核心突破
GPT-3	2020年6月	首款千亿参数模型，少样本学习
GPT-3.5-Turbo	2022年11月	对话能力优化，用户级应用落地
GPT-4	2023年3月	多模态、强逻辑推理
GPT-4o / GPT-4 Omni	2024年5月	全能输入输出，实时联网
o1-preview	2024年9月

2.什么是大语言模型

语言模型的核心功能是通过概率建模预测自然语言文本的生成规律。传统语言模型（如N-gram模型）主要基于统计方法，通过局部上下文预测词序列的分布。然而，大语言模型（Large Language Model, LLM） 的出现标志着从单纯的语言建模向复杂任务求解的跃迁，其本质是通过海量数据与深度学习技术构建的通用智能系统。

2.1 传统语言模型的局限性

知识依赖性强：需依赖外部知识库（如知识图谱）补充背景信息，难以自主理解隐含语义。

泛化能力不足：需针对特定任务微调模型，适配成本高且跨领域迁移效果差。

推理能力受限：处理复杂逻辑（如多步推理、因果分析）时表现较弱，需调整模型结构或引入额外训练策略。

2.2 大语言模型的技术突破

大语言模型通过以下创新解决了传统模型的瓶颈：

规模跃升：参数规模达百亿至万亿级，训练数据覆盖多领域文本，可捕捉深层语言规律与常识。

统一架构：基于Transformer的自注意力机制，支持长距离依赖建模与上下文感知，无需任务特定结构调整。

预训练范式：通过海量无标注文本的自监督学习（如掩码语言建模），获得通用语义表示能力，显著降低下游任务适配成本。

涌现能力：在零样本/少样本场景下展现复杂推理、知识联想等能力，如代码生成、多轮对话。

2.3 传统模型的本质差异

维度	传统语言模型	大语言模型
参数规模	百万至千万级	百亿至万亿级
训练数据	有限领域标注数据	跨领域无标注文本（如网页、书籍）
任务适配	需针对性微调	通过提示工程直接调用通用能力
推理机制	局部上下文依赖	全局语义建模与逻辑链生成