1. NLP 的定义、特点、具体工作、历史和流派
- 定义:自然语言处理(Natural Language Processing,NLP)是计算机科学与人工智能领域的一个重要分支,旨在让计算机理解、处理和生成人类自然语言,实现人与计算机之间用自然语言进行有效通信。
- 特点
- 交叉性:涉及计算机科学、语言学、数学、心理学等多学科知识。
- 复杂性:自然语言具有模糊性、歧义性和多样性等特点,增加了处理难度。
- 实用性:应用广泛,如机器翻译、智能客服、信息检索等,对人们生活和工作影响大。
- 具体工作
- 语言理解:包括词法分析、句法分析、语义分析等,让计算机理解文本的含义。
- 语言生成:根据给定信息或意图生成自然语言文本。
- 对话系统:实现人与计算机的对话交互,如智能语音助手。
- 历史
- 早期探索(20 世纪 50-60 年代):机器翻译起步,因对语言复杂性认识不足,效果不佳。
- 发展阶段(20 世纪 70-80 年代):基于规则的方法兴起,建立语法规则和词典,但规则编写繁琐。
- 快速发展(20 世纪 90 年代 - 21 世纪初):统计方法主导,利用大规模语料库和统计模型,性能提升。
- 深度学习时代(21 世纪 10 年代至今):深度学习技术推动 NLP 取得重大突破,如 Transformer 架构。
- 流派
- 规则派:基于语言学知识手工编写规则处理自然语言。
- 统计派:依靠统计模型和大规模数据进行语言处理。
- 深度学习派:利用神经网络自动学习语言特征和模式