第5节：Elasticsearch核心概念

我的后端学习笔记大纲

我的ElasticSearch学习大纲

1.Lucene和Elasticsearch的关系:

1.Lucene：最先进、功能最强大的搜索库，直接基于lucene开发，非常复杂，api复杂
2.Elasticsearch：基于lucene，封装了许多lucene底层功能，提供简单易用的restful api接口和许多语言的客户端，如java的高级客户端（Java High Level REST Client）和底层客户端（Java Low Level REST Client）

Elasticsearch起源：Shay Banon。2004年失业，陪老婆去伦敦学习厨师。失业在家帮老婆写一个菜谱搜索引擎。封装了lucene的开源项目，compass。找到工作后，做分布式高性能项目，再封装compass，写出了elasticsearch，使得lucene支持分布式。现在是Elasticsearch创始人兼Elastic首席执行官

2.Elasticsearch的核心概念

2.1.索引

1.索引就是相同类型的文档的集合，类似于mysql的表,例如：
- 所有用户文档，就可以组织在一起，称为用户的索引；
- 所有商品的文档，可以组织在一起，称为商品的索引；
- 所有订单的文档，可以组织在一起，称为订单的索引；
2.一个索引由一个名字来标识（必须全部是小写字母），并且当我们要对这个索引中的文档进行索引、搜索、更新和删除的时候，都要使用到这个名字。在一个集群中，可以定义任意多的索引
3.能搜索的数据必须索引，这样的好处是可以提高查询速度，比如：新华字典前面的目录就是索引的意思，目录可以提高查询速度。
4.索引创建规则：
- 仅限小写字母
- 不能包含\、/、 *、?、"、<、>、|、#以及空格符等特殊符号
- 从7.0版本开始不再包含冒号
- 不能以-、_或+开头
- 不能超过255个字节（注意它是字节，因此多字节字符将计入255个限制）

2.2.mapping 映射：

1.数据库的表会有约束信息，用来定义表的结构、字段的名称、类型等信息。那么在索引库中就有映射（mapping），是索引中文档的字段约束信息，类似表的结构约束，是处理数据的方式和规则方面做一些限制
2.映射举例如：某个字段的数据类型、默认值、分析器、是否被索引等等。这些都是映射里面可以设置的，其它就是处理 ES 里面数据的一些使用规则设置也叫做映射，按着最优规则处理数据对性能提高很大，因此才需要建立映射，并且需要思考如何建立映射才能对性能更好。

2.3.文档：

1.Elasticsearch是面向文档（Document）存储的，可以是数据库中的一条商品数据，一个订单信息。文档数据会被序列化为json格式后存储在elasticsearch中：
2.而Json文档中往往包含很多的字段（Field），类似于数据库中的列。对于上面表格，每一行是一个文档，每一列是一个字段
3.文档是Es中的最小数据单元。一个document就像数据库中的一条记录。通常以json格式显示。多个document文档存储于一个索引（Index）中

book document{"book_id": "1","book_name": "java编程思想","book_desc": "从Java的基础语法到最高级特性（深入的[面向对象](https://baike.baidu.com/item/面向对象)概念、多线程、自动项目构建、单元测试和调试等），本书都能逐步指导你轻松掌握。","category_id": "2","category_name": "java"
}

2.4.字段：

4.在一个 index/type 里面，你可以存储任意多的文档

2.5.Type：类型

1.每个索引里都可以有一个或多个type，type是index中的一个逻辑数据分类，一个type下的document，都有相同的field。
2.注意：6.0之前的版本有type（类型）概念，type相当于关系数据库的表，ES官方将在ES9.0版本中彻底删除type。本教程type都为_doc

2.6.NRT

1.NRT意思就是近实时
2.近实时体现在两方面：
- 写入数据时，过1秒才会被搜索到，因为内部在分词、录入索引。
- Es搜索时：搜索和分析数据需要秒级出结果。

2.7.Node(节点):

1.每个服务器上的ES实例称为一个节点。节点名自动分配，也可以手动配置

2.8.Cluster（集群）

1.包含一个或多个启动着ES实例的机器群。通常一台机器起一个ES实例。同一网络下，集名一样的多个es实例自动组成集群，自动均衡分片等行为。默认集群名为“elasticsearch”

2.9.shard：分片

1.index数据过大时，将index里面的数据，分为多个shard，分布式的存储在各个服务器上面。可以支持海量数据和高并发，提升性能和吞吐量，充分利用多台机器的cpu。

2.10.replica：副本

1.在分布式环境下，任何一台机器都会随时宕机，如果宕机，index的一个分片没有，导致此index不能搜索。所以，为了保证数据的安全，我们会将每个index的分片经行备份，存储在另外的机器上。保证少数机器宕机es集群仍可以搜索。
2.能正常提供查询和插入的分片我们叫做主分片（primary shard），其余的我们就管他们叫做备份的分片（replica shard）。
3.Es6默认新建索引时，5分片，2副本，也就是一主一备，共10个分片。所以，Es集群最小规模为两台。

2.11.分配（Allocation）

1.将分片分配给某个节点的过程，包括分配主分片或者副本。如果是副本，还包含从主分片复制数据的过程。这个过程是由 master 节点完成的

3. Elasticsearch与mysql对比:

3.1.MySQL擅长事务类型操作，

关系型数据库（比如Mysql）	非关系型数据库（Elasticsearch）	非关系型数据库（Elasticsearch）
表Table	索引Index（原为Type）	索引(index)，就是文档的集合，类似数据库的表(table)
数据行Row	文档Document	文档（Document），就是一条条的数据，类似数据库中的行（Row），文档都是JSON格式
数据列Column	字段Field	字段（Field），就是JSON文档中的字段，类似数据库中的列（Column）
约束 Schema	映射Mapping	`Mapping（映射）是索引中文档的约束`，例如字段类型约束。类似数据库的表结构（Schema）
SQL	`DSL`	DSL是elasticsearch提供的JSON风格的请求语句，用来操作elasticsearch，实现CRUD