【语言处理和机器学习】概述篇(基础小白入门篇)

 前言

自学笔记,分享给语言学/语言教育学方向的,但对语言数据处理感兴趣但是尚未入门,却需要在论文中用到的小伙伴,欢迎大佬们补充或绕道。ps:本文不涉及公式讲解(文科生小白友好体质)~(部分讲解会参考知乎等平台)

本文重点:语言学数据处理框架下的,机器学习方法的整体概述。

1.机器学习是做什么的?

2.机器学习有哪些分类?

3.每种分类具体对应哪些方法?

一.机器学习是做什么的?

  机器学习使计算机可以从语言数据中学习人类语言的规律,在理解、生成、分析等方面逼近人类水平。机器学习的核心是让机器通过学习数据自动提取知识进行预测和决策

结合简单语言学处理实例介绍简单机器学习的主要处理逻辑:

实例:以【新闻文本体裁分类】为例,希望训练一个模型,能够自动将新闻文章分为体育娱乐财经科技等不同的类别。

基本步骤定义语言学数据实例
---------------------------------------------------基础步骤(必须有!)----------------------------------------------------------
1.数据准备收集和预处理用于训练和测试的数据。这一步至关重要,数据质量直接影响模型性能。
  • 收集大量不同体裁的新闻文章

  • 对文章进行分词等语言指标抽出,例如:平均句长,动词使用率等(自变量)

  • 标注每篇文章的体裁类别(响应变量)

2.划分数据集将数据分为训练集、验证集和测试集。训练集用于训练模型,验证集用于调参和选择模型,测试集用于评估模型的泛化能力。
  • 将标注好的新闻文章数据随机划分为训练集和测试集

  • 训练集用于训练分类模型,测试集用于评估模型效果

3.模型选择与训练根据任务和数据的特点,选择合适的机器学习算法(如决策树、神经网络等),并使用训练集对模型进行训练,让模型学习数据中的模式。
  • 选择合适的分类算法,如朴素贝叶斯、支持向量机等

  • 用训练集训练分类模型,让模型学习不同体裁的文本特征

4.性能评估使用验证集评估模型性能,通过交叉验证等方法选择最优模型和超参数。再用测试集评估模型的泛化性能。
  • 用测试集评估模型在各个体裁上的分类准确率

  • 选择整体分类效果最好的模型

--------------------------------------------------------附加步骤(有更好!)-------------------------------------------------------
5.模型优化分析模型错误,进行优化,如增加训练数据、调整模型结构、引入正则化等。性能评估和优化往复进行,不断提升模型。
  • 分析模型分错的文章,总结规律

  • 优化措施:如增加训练数据、调整模型参数、尝试其他算法等

  • 多次迭代,不断提升分类效果

6.模型应用将训练好的模型部署到实际的应用场景中,对新数据进行预测。
  • 将训练好的新闻体裁分类模型集成到新闻推荐系统中

  • 对新来的文章自动预测其体裁,再推荐给对应兴趣的用户

7.反馈优化收集实际应用中的新数据和反馈,优化模型,形成迭代闭环。
  • 收集用户反馈,分析体裁分类错误对推荐效果的影响

  • 持续迭代优化分类模型,提高整个系统的用户体验

二.机器学习有哪些分类?

1.有监督学习(教師あり学習)

  • 训练数据中包含了输入及其对应的预期正确输出(标签)
  • 目标是学习输入到输出的映射函数,用于预测新数据的输出
  • 广泛应用于分类回归任务,如文本分类、图像识别等

语言学处理实例:

  • 词性标注:以词性标注的语料库为训练集,学习词性分类模型,自动标注新文本
  • 语法纠错:以正确和错误的句子对为训练数据,学习语法纠错模型,自动检查和修正语法错误
  • 语音识别:以语音-文本对为训练数据,学习语音转录模型,实现语音到文本的自动转换
  • 阅读理解:以文本-问题-答案三元组为训练数据,学习阅读理解模型,自动回答文本内容的问题

2.无监督学习(教師なし学習)

  • 训练数据没有标签,只有输入本身
  • 目标是发现数据内在的结构和模式,如聚类、关联、降维
  • 常用于数据压缩、异常检测、推荐系统等

语言学处理实例:

  • 词聚类:无监督地将语料库中的词汇按语义聚成不同的类,发现词汇的语义关系
  • 话题发现:从大量文本语料中无监督地提取隐含的主题,理解语料的话题结构
  • 字词表示学习:从海量语料中自主学习词嵌入表示,刻画词汇的语义特征,用于各种下游NLP任务
  • 语言结构发现:从未标注的语料中自主学习短语结构、句法结构等,发现语言的结构规律

3.强化学习(強化学習)

  • 通过智能体(Agent)与环境的交互来学习最优策略
  • 没有直接的监督标签,而是根据行为获得的奖励或惩罚来优化
  • 适用于序贯决策问题,如游戏、机器人控制、自动化运营等

语言学处理实例:

  • 对话生成:通过强化学习训练对话系统,根据人类反馈优化对话策略,生成更自然、贴切的回复
  • 语言游戏:设计益智的语言交互游戏,通过强化学习训练游戏AI,提供智能的游戏陪练,供学习者练习
  • 写作评分:将自动作文评分系统建模为强化学习过程,通过学生反馈和专家打分等奖励信号,持续优化评分策略
  • 教育个性化:将个性化教学决策建模为强化学习问题,通过学生学习过程数据及反馈,自适应优化个性化教学策略

    总的来说,有监督学习需要人工标注数据,学习明确的目标;而无监督学习让算法自主探索数据的内在规律。而强化学习通过主动探索和试错来优化系统行为,以获得最大化的累积奖励。

    三.每种机器学习所对应的具体方法

    (了解!之后推文会详细介绍)

    分类常用方法
    有监督学习
    • - 线性回归 (Linear Regression)

    • -逻辑回归 (Logistic Regression)

    • - 决策树 (Decision Tree)

    • - 随机森林 (Random Forest)

    • 支持向量机 (Support Vector Machine, SVM)

    • - K近邻 (K-Nearest Neighbors, KNN)

    • - 朴素贝叶斯 (Naive Bayes)

    无监督学习
    • - K均值聚类 (K-Means Clustering)
    • - 层次聚类 (Hierarchical Clustering)
    • - 高斯混合模型 (Gaussian Mixture Model, GMM)
    • - 主成分分析 (Principal Component Analysis, PCA)
    • - 潜在语义分析 (Latent Semantic Analysis, LSA)
    强化学习
    • - Q学习 (Q-Learning)
    • - SARSA学习 (State-Action-Reward-State-Action)
    • - 蒙特卡洛方法 (Monte Carlo Methods)
    • - 时序差分学习 (Temporal Difference Learning)

    本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/4571.html

    如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

    相关文章

    ARP 表、MAC 表、路由表、跨网段 ARP

    文章目录 一、ARP 表1、PC2、路由器 - AR22203、交换机 - S57004、什么样的设备会有 ARP 表? 二、MAC 表什么样的设备会有 MAC 表? 三、路由表什么样的设备会有路由表? 四、抓取跨网段 ARP 包 所谓 “透明” 就是指不用做任何配置 一、ARP 表…

    Spring的IoC、Bean、DI的简单实现,难度:※※※

    目录 场景描述 第一步:初始化Maven项目 第二步:Maven导入Spring包(给代码) 第三步:创建Spring配置文件 第四步 创建Bean 第五步 简单使用Bean (有代码) 第六步 通过依赖注入使用Bean&…

    wireshark工具简介

    目录 1 wireshark介绍 2 wireshark抓包流程 2.1 选择网卡 2.2 停止抓包 2.3 保存数据 3 wireshark过滤器设置 3.1 显示过滤器的设置 3.2 抓包过滤器 4 wireshark的封包列表与封包详情 4.1 封包列表 4.2 封包详情 参考文献 1 wireshark介绍 wireshark是非常流行的网络…

    C# OpenCvSharp 部署文档矫正,包括文档扭曲/模糊/阴影等情况

    目录 说明 效果 模型 项目 代码 下载 参考 C# OpenCvSharp 部署文档矫正,包括文档扭曲/模糊/阴影等情况 说明 地址:https://github.com/RapidAI/RapidUnDistort 修正文档扭曲/模糊/阴影等情况,使用onnx模型简单轻量部署&#xff0c…

    编辑器Vim基本模式和指令 --【Linux基础开发工具】

    文章目录 一、编辑器Vim 键盘布局二、Linux编辑器-vim使用三、vim的基本概念正常/普通/命令模式(Normal mode)插入模式(Insert mode)末行模式(last line mode) 四、vim的基本操作五、vim正常模式命令集插入模式从插入模式切换为命令模式移动光标删除文字复制替换撤销上一次操作…

    LeetCode 110.平衡二叉树

    题目描述 给定一个二叉树,判断它是否是平衡二叉树。 示例 1: 示例 2: 输入:root [1,2,2,3,3,null,null,4,4] 输出:false 示例 3: 输入:root [] 输出:true 提示: …

    Asp .Net Core 实现微服务:集成 Ocelot+Nacos+Swagger+Cors实现网关、服务注册、服务发现

    什么是 Ocelot ? Ocelot是一个开源的ASP.NET Core微服务网关,它提供了API网关所需的所有功能,如路由、认证、限流、监控等。 Ocelot是一个简单、灵活且功能强大的API网关,它可以与现有的服务集成,并帮助您保护、监控和扩展您的…

    Express中间件

    目录 Express中间件 中间件的概念 next函数 全局中间与局部中间件 多个中间件 中间的5个注意事项 中间的分类 应用级中间件 路由级中间件 错误级中间件 Express内置中间件 express.json express.urlencoded 第三方中间件​编辑 自定义中间件 Express中间件 中间…

    Linux 高级路由与流量控制-用 tc qdisc 管理 Linux 网络带宽

    大家读完记得觉得有帮助记得关注和点赞!!! 此分享内容比较专业,很多与硬件和通讯规则及队列,比较底层需要有技术功底人员深入解读。 Linux 的带宽管理能力 足以媲美许多高端、专用的带宽管理系统。 1 队列&#xff0…

    要获取本地的公网 IP 地址(curl ifconfig.me)

    文章目录 通过命令行查询(适用于 Linux/Mac/Windows)Linux/MacWindows 注意事项 要获取本地的公网 IP 地址,可以通过以下简单的方法: 通过命令行查询(适用于 Linux/Mac/Windows) Linux/Mac 打开终端。输入…

    项目开发实践——基于SpringBoot+Vue3实现的在线考试系统(七)

    文章目录 一、题库管理模块实现1、新增题目功能实现1.1 页面设计1.2 前端功能实现1.3 后端功能实现1.4 效果展示2、题目列表功能实现2.1 页面设计2.2 前端功能实现2.3 后端功能实现2.3.1 后端查询题目列表接口实现2.3.2 后端编辑试题接口实现2.4 效果展示二、代码下载一、题库管…

    Python文本处理:LDA主题聚类模型

    一、模型简介 LDA(Latent Dirichlet Allocation)是一种生成式概率模型,用于发现文本数据中隐藏的主题分布。本项目基于Python实现LDA主题模型,包含文本预处理、最佳主题数目选择、关键词提取、词云生成以及PyLDAvis可视化等步骤。…

    4.JoranConfigurator解析logbak.xml

    文章目录 一、前言二、源码解析GenericXMLConfiguratorlogback.xml解析通过SaxEvent构建节点model解析model节点DefaultProcessor解析model 三、总结 一、前言 上一篇介绍了logback模块解析logback.mxl文件的入口, 我们可以手动指定logback.xml文件的位置, 也可以使用其它的名…

    直连EDI与VAN:如何选择更适合企业的数据交换方式

    在推进EDI项目时,企业通常会面临两种主要的数据交换方式选择:直连EDI(Direct EDI)和增值网络VAN(Value Added Network)。那么,它们之间有什么区别?为什么我们更推荐企业使用直连EDI而…

    用户中心项目教程(五)---MyBatis-Plus完成后端初始化+测试方法

    文章目录 1.数据库的链接和创建2.建库建表语句3.引入依赖4.yml配置文件5.添加相对路径6.实体类的书写7.Mapper接口的定义8.启动类的指定9.单元测试10运行时的bug 1.数据库的链接和创建 下面的这个就是使用的我们的IDEA链接这个里面的数据库: 接下来就是输入这个用户…

    如何使用MaskerLogger防止敏感数据发生泄露

    关于MaskerLogger MaskerLogger是一款功能强大的记录工具,该工具可以有效防止敏感数据泄露的发生。 MaskerLogger旨在保护目标系统的日子安全,此格式化程序可确保你的日志安全并防止敏感数据泄露。例如使用此格式化程序,打印下列数据&#x…

    boss直聘 __zp_stoken__ 分析

    声明: 本文章中所有内容仅供学习交流使用,不用于其他任何目的,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关! 逆向过程 py代码 import execjs imp…

    2024-春秋杯冬季赛

    Misc 简单算术 题目提示异或,直接把开头字符 y 与 f 异或,得到的是不可见字符,base64 编码一下得到异或的字符,将给出的每一个字符与编码后的结果异或即可得到 flag import base64result chr((ord("y") ^ ord("…

    SparkSQL函数

    文章目录 1. SparkSQL函数概述2. SparkSQL内置函数2.1 常用内置函数分类2.2 常用数组函数2.2.1 array()函数1. 定义2. 语法3. 示例 2.3 常用日期与时间戳函数2.4 常见聚合函数2.5 常见窗口函数 3. SparkSQL自定义函数3.1 自定义函数分类3.2 自定义函数案例演示3.2.1 定义自定义…

    Tomcat下载配置

    目录 Win下载安装 Mac下载安装配置 Win 下载 直接从官网下载https://tomcat.apache.org/download-10.cgi 在圈住的位置点击下载自己想要的版本 根据自己电脑下载64位或32位zip版本 安装 Tomcat是绿色版,直接解压到自己想放的位置即可 Mac 下载 官网 https://tomcat.ap…