【NLP概念源和流】 01-稀疏文档表示（第 1/20 部分）

一、介绍

自然语言处理（NLP）是计算方法的应用，不仅可以从文本中提取信息，还可以在其上对不同的应用程序进行建模。所有基于语言的文本都有系统的结构或规则，通常被称为形态学，例如“跳跃”的过去时总是“跳跃”。对于人类来说，这种形态学的理解是显而易见的。

在这篇介绍性的NLP博客中，我们将看到不同的方法来确定语言的形态结构和规则。

二、标记化和分词

将文本分割成相关单词的任务称为标记化。

在最简单的形式中，可以通过使用空格拆分文本来实现标记化。NLTK 提供了一个名为 word_tokenize（） 的函数，用于将字符串拆分为标记。

text = 'we will look into the core components that are relevant to language in computational linguistics'

但是简单的标记化并不是一直有效。对于涉及单词之间标点符号的复杂单词（例如：是什么）

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/73812.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！