前言
自学笔记,分享给语言学/语言教育学方向的,但对语言数据处理感兴趣但是尚未入门,却需要在论文中用到的小伙伴,欢迎大佬们补充或绕道。ps:本文不涉及公式讲解(文科生小白友好体质)~(部分讲解会参考知乎等平台)
本文重点:语言学数据处理框架下的,机器学习方法的整体概述。
【1.机器学习是做什么的?】
【2.机器学习有哪些分类?】
【3.每种分类具体对应哪些方法?】
一.机器学习是做什么的?
机器学习使计算机可以从语言数据中学习人类语言的规律,在理解、生成、分析等方面逼近人类水平。机器学习的核心是让机器通过学习数据,自动提取知识,进行预测和决策。
结合简单语言学处理实例介绍简单机器学习的主要处理逻辑:
实例:以【新闻文本体裁分类】为例,希望训练一个模型,能够自动将新闻文章分为体育、娱乐、财经、科技等不同的类别。
基本步骤 | 定义 | 语言学数据实例 |
---------------------------------------------------基础步骤(必须有!)---------------------------------------------------------- | ||
1.数据准备 | 收集和预处理用于训练和测试的数据。这一步至关重要,数据质量直接影响模型性能。 |
|
2.划分数据集 | 将数据分为训练集、验证集和测试集。训练集用于训练模型,验证集用于调参和选择模型,测试集用于评估模型的泛化能力。 |
|
3.模型选择与训练 | 根据任务和数据的特点,选择合适的机器学习算法(如决策树、神经网络等),并使用训练集对模型进行训练,让模型学习数据中的模式。 |
|
4.性能评估 | 使用验证集评估模型性能,通过交叉验证等方法选择最优模型和超参数。再用测试集评估模型的泛化性能。 |
|
--------------------------------------------------------附加步骤(有更好!)------------------------------------------------------- | ||
5.模型优化 | 分析模型错误,进行优化,如增加训练数据、调整模型结构、引入正则化等。性能评估和优化往复进行,不断提升模型。 |
|
6.模型应用 | 将训练好的模型部署到实际的应用场景中,对新数据进行预测。 |
|
7.反馈优化 | 收集实际应用中的新数据和反馈,优化模型,形成迭代闭环。 |
|
二.机器学习有哪些分类?
1.有监督学习(教師あり学習)
- 训练数据中包含了输入及其对应的预期正确输出(标签)
- 目标是学习输入到输出的映射函数,用于预测新数据的输出
- 广泛应用于分类和回归任务,如文本分类、图像识别等
语言学处理实例:
- 词性标注:以词性标注的语料库为训练集,学习词性分类模型,自动标注新文本
- 语法纠错:以正确和错误的句子对为训练数据,学习语法纠错模型,自动检查和修正语法错误
- 语音识别:以语音-文本对为训练数据,学习语音转录模型,实现语音到文本的自动转换
- 阅读理解:以文本-问题-答案三元组为训练数据,学习阅读理解模型,自动回答文本内容的问题
2.无监督学习(教師なし学習)
- 训练数据没有标签,只有输入本身
- 目标是发现数据内在的结构和模式,如聚类、关联、降维
- 常用于数据压缩、异常检测、推荐系统等
语言学处理实例:
- 词聚类:无监督地将语料库中的词汇按语义聚成不同的类,发现词汇的语义关系
- 话题发现:从大量文本语料中无监督地提取隐含的主题,理解语料的话题结构
- 字词表示学习:从海量语料中自主学习词嵌入表示,刻画词汇的语义特征,用于各种下游NLP任务
- 语言结构发现:从未标注的语料中自主学习短语结构、句法结构等,发现语言的结构规律
3.强化学习(強化学習)
- 通过智能体(Agent)与环境的交互来学习最优策略
- 没有直接的监督标签,而是根据行为获得的奖励或惩罚来优化
- 适用于序贯决策问题,如游戏、机器人控制、自动化运营等
语言学处理实例:
- 对话生成:通过强化学习训练对话系统,根据人类反馈优化对话策略,生成更自然、贴切的回复
- 语言游戏:设计益智的语言交互游戏,通过强化学习训练游戏AI,提供智能的游戏陪练,供学习者练习
- 写作评分:将自动作文评分系统建模为强化学习过程,通过学生反馈和专家打分等奖励信号,持续优化评分策略
- 教育个性化:将个性化教学决策建模为强化学习问题,通过学生学习过程数据及反馈,自适应优化个性化教学策略
总的来说,有监督学习需要人工标注数据,学习明确的目标;而无监督学习让算法自主探索数据的内在规律。而强化学习通过主动探索和试错来优化系统行为,以获得最大化的累积奖励。
三.每种机器学习所对应的具体方法
(了解!之后推文会详细介绍)
分类 | 常用方法 |
---|---|
有监督学习 |
|
无监督学习 |
|
强化学习 |
|