1. 大语言模型 (LLM) 背景
2. 语言模型 (Language Model, LM)
1. 大语言模型 (LLM) 背景
大语言模型 (英文:Large Language Model,缩写LLM) 是一种人工智能模型, 旨在理解和生成人类语言. 大语言模型可以处理多种自然语言任务,如文本分类、问答、翻译、对话等等.
通常, 大语言模型 (LLM) 是指包含数千亿 (或更多) 参数的语言模型(目前定义参数量超过10B的模型为大语言模型),这些参数是在大量文本数据上训练的,例如模型 GPT-3、ChatGPT、GLM、BLOOM和LLaMA等.
截止目前,语言模型发展走过了三个阶段:
2. 语言模型 (Language Model, LM)
语言模型(Language Model)旨在建模词汇序列的生成概率,提升机器的语言智能水平,使机器能够模拟人类说话、写作的模式进行自动文本输出。
可以分为4类,分别是基于规则和统计的语言模型,神经语言模型,预训练语言模型与大语言模型
从文本生成角度,也可以这样定义语言模型:给定一个短语(一个词组或者一句话)语言模型可以生成(预测)接下来的一个词。