MongoDB快速上手
MongoDB用起来-快速上手&集群和安全系列
课程目标:
- 理解MongoDB的业务场景、熟悉MongoDB的简介、特点和体系结构、数据类型等
- 能够在windows和linux下安装和启动MongoDB、图形化管理界面Compass的安装使用
- 掌握MongoDB基本常用命令实现数据的CRUD
- 掌握MongoDB的索引类型、索引管理、执行计划
- 使用Spring Data MongoDB完成文章评论业务的开发
一.MongoDB相关概念
1.1业务应用场景
传统的关系型数据库(如Mysql),在数据操作的“三高”需求以及应对web2.0的网站需求面前,显得力不从心,。
解释: “三高”解释:
- High performance:对数据库高并发读写的需求
- Huge Storage: 对海量数据的高效率存储和访问的需求
- High Scalability && High Avaliability:对数据库的高拓展性和高可用性的需求
而MongoDB可应对“三高”需求
具体的应用场景:
- 社交的应用场景,使用MongoDB存储用户信息,以及用户发表的朋友圈信息,通过地理位置索引实现附近的人、地点等功能。
- 游戏场景,使用MongoDB存储游戏用户信息,用户的装备、积分等直接以内嵌文档的形式存储,方便从哈寻高效率存储和访问。
- 物流场景,使用MongoDB存储订单信息,订单状态在运送过程中会不断更新,以MongoDB内嵌数组的形式来存储,一次查询就能将订单所有的变更读取出来。
- 物联网场景,使用MongoDB存储所有接入的智能设备信息,以及设备汇报的日志信息,并对这些信息进行多维度的分析。
- 视频直播,使用MongoDB存储用户信息、点赞互动信息等。
这些应用场景中,数据操作方面的共同特点是:
- 数据量大
- 写入操作频繁(读写都很频繁)
- 价值较低的数据,事务性要求不高
对于这样的数据,我们更适合使用MongoDB来实现数据的存储
什么时候选择MongoDB?
在架构选型上,除了上述的三个特点外,如果你还有序是否要选择它?可以考虑以下的一些问题:
- 应用不需要事务以及复杂的join支持
- 新应用,需求会变,数据库模型无法确定,想快速迭代开发
- 应用需要2000-3000以上的读写QPS(更高也可以)
- 应用需要TB甚至PB级别数据存储
- 应用发展迅速,需要能快速水平拓展
- 应用要求存储的数据不丢失
- 应用需要99.999%高可用
- 应用需要大量的地理位置查询、文本查询
如果上述有1个符合,可以考虑MongoDB,2个以及以上的符合,选择MongoDB绝不会后悔
思考:如果用Mysql呢?
答: 相对Mysql,可以以更低的成本解决问题(包括学习、开发、运维等成本)
1.2MongoDB简介
MongoDB是一个开源、高性能、无模式的文档型数据库,当初的设计就是用于简化开发和方便拓展,是Nosql数据库产品中的一种。是最像关系型数据库(Mysql)的非关系型数据库。
它支持的数据结构非常松散,是类似JSON的BSON格式,所以它既可以存储比较复杂的数据类型,又相当的灵活。
MongoDB中的记录是一个文档,它是一个由字段和值对组成的数据结构,MongoDb文档类似于JSON对象,即一个文档认为就是一个对象,字段的数据类型是字符型,它的值除了使用基本的一些类型外,还可以包括其他文档、普通数组和文档数组。
1.2.1体系结构
Mysql和mongoDB对比
1.2.2数据模型
MongoDB的最小存储单元就是文档对象。文档对象对应于惯性数据库的行,数据在MongoDB中以BSON(Binary-JSON)文档的格式存储在磁盘上。
BSON是一种类JSON的一种二进制形式的存储格式,简称Binary JSON。BSON和JSON一样,支持内嵌的文档对象和数组对象,但是BSON由JSON没有的一些数据类类型,如Date和BinData类型。
BSON采用了类似于C语言结构体的名称、对表示方法,支持内嵌的文档对象和数组对象,具有轻量性、可遍历性、高效性的三个特点,可以有效描述非结构化数据和结构化数据。这种格式的有点是灵活性高,但它的却段是空间利用率不是很理想。
BSON中,除了基本的JSON类型:string,integer,boolean,double,null,array和object,mongoDB还是用了特殊的数据类型。这些类型包括date,object,id,binary,data,regular expression和code,每一个驱动都以特定语言的方式实现了这些类型,查看你的驱动的文档来获取详细信息。
BSON数据类型参考列表:
1.3MongoDB的特点
MongoDB主要有以下特点:
1.高性能
MongoDB提供高性能的数据持久化。特别是,对嵌入式数据模型的支持减少了数据库系统上的I/O活动。
索引支持更快的查询,并且可以包含来自嵌入式文档和数组的建。(文本索引解决搜索的需求,TTL索引解决历史数据自动过期的需求,地理位置索引可用于构建各种020应用)
mmapv1,wiredtiger,mongorocks(rocksdb),in-memory等多引擎支持满足各种场景需求。
2.高可用
MongoDB的复制工具称为副本集,它可提供自动故障转移和数据冗余。
3.高拓展性
MongoDB提供了水平可拓展性作为其核心功能的一部分。
分片将数据分布在一组集群的机器上。(海量数据存储,服务能力水平拓展)
从3.4开始,MongoDB支持基于片键创建数据区域,在一个平衡的集群中,MongoDB将一个区域所有覆盖的读写只定向到该区域内的哪些片。
4.丰富的查询支持
MongoDB支持丰富的额查询语言,支持读和写操作,比如数据聚合、文本搜索和地理空间查询等。
5.其他特点
如无模式(动态模式)、灵活的文本模型。
二、单机部署
2.1window系统中的安装启动
第一步:下载安装包
MongoDB提供了可用于32位和64位系统的预编译二进制包,你可以从MongoDB官网下载安装,MongoDB预编译二进制包下载地址:
storage:#mongod实例存储其数据的目录。storage.dbPath设置仅适用于mongodbdbPath: "D:\SOFTWARE\mongodb\data\db"
2.2Shell连接(mongo命令)
在命令提示符输入以下shell命令即可完成登陆
mongo
或
mongo --host=127.0.0.1 --port=27017
查看已经有的数据库
show databases
退出mongodb
exit
更多的参数可以通过帮助查看:
mongodb --help
提示:
MongoDB javasctipt shell是一个基于javascipt的解释器,故事只是js程序的。
2.3Compass图形化界面客户端
2.4Linux系统中的安装启动和连接
配置文件的内容如下:
systemLog:#MongoDB发送所有日志输出的目标指定为文件destination: filepath: "/mongodb/single/log/mongod.log"#当mongos或者mongod实例重新启动时,mongos或者mongod会将新条目附加到现有日志文件的末尾logAppend: truestorage:#mongod实例存储其数据的目录。storage.dbPath设置仅适用于mongodbdbPath: "/mongodb/single/data/db"journal:#启用或者禁用持久性日志以确保数据文件保持有效和可恢复到宕机前enabled: true
net:#服务实例绑定所有IP,有副作用,副本集初始化的时候,节点名字会自动设置为本地域名,而不是ip#bindIpAll: true#服务实力绑定的IPbindIp: localhost, 192.168.0.2#bindIp#绑定的端口port: 27017
【补充】
如果一旦是因为数据损坏,则需要进行如下操作(了解):
1.删除lock文件:
2.修复数据
三、基本常用命令
3.1案例需求
存放文章评论的数据存放到MongoDB中,数据结构参考如下:
数据库:articledb
3.2数据库操作
3.2.1选择和创建数据库
选择和创建数据数据库的语法格式:
use 数据库名称
如果数据库不存在则自动创建,例如,以下语句创建spitdb数据库:
use articledb
查看有权限的所有数据库命令
show dbs
或
show databases
注意:在Mongodb中,集合只有在内容插入后擦胡创建!就是说,创建集合(数据表)后要再插入一个文档(记录),集合才会真正创建。
查看当前正在使用的数据库命令
db
MongoDB中默认的数据库位test,如果你没有选择数据库,集合将存放再test数据库中。
另外;
数据库明可以是满足以下条件的任意UTF-8字符串。
- 不能是空字符串(“”)
- 不得含有’'(空格)、.、$、/、\和\0(空字符)
- 应全部小写
- 最多64字节
有一些数据库名是保留的,可以直接访问这些有特俗作用的数据库。
- admin:从权限的角度来看,这是"root"数据库。要是将一个用户添加到这个数据库,这个用户自动继承所有数据库的权限。一些特定的服务器端命令也只能从这个数据库运行,比如列出所有的数据库或者关闭服务器。
- local: 这个数据永远不会被复制,可以用来存储限于本地单台服务器的任意集合,防止被复制数据可以放在本数据库中。
- config:当MongoDB用于分片设置时,config数据库在内部使用,用于保存分片的相关信息。
3.2.2数据库的删除
MongoDB删除数据库的语法格式如下:
db.dropDatabases()
提示:主要用来删除已经持久化的数据库
3.3集合操作
集合,类似关系型数据库中的表。
可以显示的创建,也可以隐式的创建。
3.3.1集合的显示创建(了解)
基本语法格式:
db.createCollection(name)
参数说明:
name:要创建的集合名称
例如:创建一个名为mycollection的普通集合。
db.createCollection("mycollection")
查看当前库中的表:show tables命令
show collections
或
show tables
集合的命名规范:
集合名不能为空字符串“”。
集合名不能含有\0字符(空字符),这个字符表示集合名的结尾。
集合名不能以“system.”开头,这是系统集合预留的前缀。
3.3.2集合的隐式创建
当向一个集合中插入一个文档的时候,如果集合不存在,则会自动创建集合。
详见文档的插入章节。
提示:通常我们使用隐式创建文档即可。
3.3.3集合的删除
集合删除语法格式如下:
db.collection.drop()
或
db.集合.drop()
返回值
如果成功删除选定集合,则drop方法返回true,否则返回false.
例如:要删除mycollection集合
db.mycollection.drop()
3.4文档基本CRUD
3.4.1文档的插入
1.当个文档插入
使用insert()或者save()方法向集合中插入文档,语法如下:
db.collection.insert(<document or array of documents>,{writeConcern: <document>,ordered: <boolean> }
)
参数:
【示例】
要向comment的集合(表)中插入一条测试数据:
db.comment.insert({"articleid": "100000", "content":"今天天气真好,阳光明媚", “userid”: "1001", "nickname": "Rose", "createdatetime": new Date(), "likenum": NumberInt(10), "state": null})
提示:
1.comment集合不存在,则会隐式创建
2.mongo中的数组,默认情况下是double类型,如果要存整型,必须使用函数NumberInt(整型数字),否则取出来就会有问题了。
3.插入当前日期使用 new Date()
4.插入的数据没有指定_id,会自动生成主键值
5.如果某字段没值,可以赋值为null,或不写该字段。
执行后,如下,说明插入一个数据成功了。
注意:
- 文档中的键/值对是有序的
- 文档中的值不仅可以使在双引号里面的字符串,还可以使其他几种数据类型(甚至可以是整个嵌入的文档)
- MongoDB区分类型和大小写
- MongoDB的文档不能有重复的键
- 文档的键是字符串。除了少数例外情况,键可以使用任意UTF-8字符串
文档键命名规范:
- 键不能含有\0(空字符)。这个字符用来表示键的结尾
- .和$有特别的意义,只能在特定环境下才能使用
- 以下划线“_”开头的键是保留的(不是严格要求的)
2.批量插入
语法:
db.collection.insertMany([<document 1>,<document 2>, ...],{writeConcern: <document>,ordered: <boolean>}
)
参数:
[示例]
批量插入多条文章评论:
db.comment.insertMany([{"_id": "1","articleid": "100001","content": "我们不应该吧清晨浪费在手机上,健康很重要,一杯温水幸福你我她。","userid": "1001","nickname": "相忘于江湖 ","createdatetime": new Date("2019-08-05T22:08:15.522Z"),"likenum": NumberInt(1000),"state": "1"},{"_id": "2","articleid": "100001","content": "我夏天空腹喝凉开水,冬天喝温开水。","userid": "1002","nickname": "伊人憔悴","createdatetime": new Date("2019-08-05T23:58:51.485Z"),"likenum": NumberInt(888),"state": "1"},{"_id": "3","articleid": "100001","content": "我一直喝凉开水,冬天夏天都喝。","userid": "1003","nickname": "杰克船长","createdatetime": new Date("2019-08-06T01:05:06.321Z"),"likenum": NumberInt(666),"state": "1"},{"_id": "4","articleid": "100001","content": "专家说不能空腹吃饭,影响健康。","userid": "1004","nickname": "凯撒","createdatetime": new Date("2019-08-06T08:18:35.288Z"),"likenum": NumberInt(2000),"state": "1"},{"_id": "5","articleid": "100001","content": "研究表明,刚烧开的说千万不能喝,因为烫嘴。","userid": "1005","nickname": "凯撒","createdatetime": new Date("2019-08-06T11:01:02.521Z"),"likenum": NumberInt(3000),"state": "1",}]);
提示:
插入时绑定了_id,则主键就是该值。
如果某条数据插入失败,将会终止插入,但是插入成功的数据不会回滚掉。
因为批量插入由于数据较多容易出现失败,因此,可以使用try-catch进行异常捕获处理,测试的时候可以不处理。如(了解):
try{db.comment.insertMany([{"_id": "1","articleid": "100001","content": "我们不应该吧清晨浪费在手机上,健康很重要,一杯温水幸福你我她。","userid": "1001","nickname": "相忘于江湖 ","createdatetime": new Date("2019-08-05T22:08:15.522Z"),"likenum": NumberInt(1000),"state": "1"},{"_id": "2","articleid": "100001","content": "我夏天空腹喝凉开水,冬天喝温开水。","userid": "1002","nickname": "伊人憔悴","createdatetime": new Date("2019-08-05T23:58:51.485Z"),"likenum": NumberInt(888),"state": "1"},{"_id": "3","articleid": "100001","content": "我一直喝凉开水,冬天夏天都喝。","userid": "1003","nickname": "杰克船长","createdatetime": new Date("2019-08-06T01:05:06.321Z"),"likenum": NumberInt(666),"state": "1"},{"_id": "4","articleid": "100001","content": "专家说不能空腹吃饭,影响健康。","userid": "1004","nickname": "凯撒","createdatetime": new Date("2019-08-06T08:18:35.288Z"),"likenum": NumberInt(2000),"state": "1"},{"_id": "5","articleid": "100001","content": "研究表明,刚烧开的说千万不能喝,因为烫嘴。","userid": "1005","nickname": "凯撒","createdatetime": new Date("2019-08-06T11:01:02.521Z"),"likenum": NumberInt(3000),"state": "1",}]);
}catch(e){print(e);
}
3.4.2文档
查询数据的语法格式如下:
db.collection.find(<query>, [projection])
参数:
[示例]
1.查询所有
如果我们要查询spit集合的所有文档,我们输入以下命令:
db.comment.find()
或
db.comment.find({})
这里你会发现每条文档会有一个叫_id的字段,这个相当于我们原来关系型数据库中表的主键,当你插入文档记录的时没有指定该字段,MongoDB会自动创建,其类型时ObjectID类型。
如果我们在插入文档记录时指定该字段也是可以,其类型可以是ObjectID类型,也可以是MongoDB支持的任意类型。
如果我们想按一定条件来查询,比如我们想查询userid为1003的记录,怎么办?很简单,只要在find()中添加参数即可,参数也是json格式,如下:
db.comment.find({userid: "1003"})
如果你只需要返回符合条件的第一条数据,我们可以使用findOne命令来实现,语法和find一样。
如:查询用户编号是1003的记录,但最多返回符合条件的第一条记录:
db.comment.findOne({userid: "1003"})
2.投影查询
如果要查询结果返回部分字段,则需要使用投影查询(不显示所有字段,只显示指定的字段)。
如:查询结果只显示_d,userid,nickname:
db.comment.find({userid: "1003"},{userid: 1,nickname: 1}
)
默认_id会显示。
如:查询结果只显示userid,nickname不显示_id
db.comment.find({userid: "1003"},{_id: 0,userid: 1,nickname: 1}
)
再例如:查询所有数据,但只显示_id,userid,nickname
db.comment.find({},{_id: 0,userid: 1,nickname: 1}
)
3.4.3文档的更新
更新文档的语法:
db.collection.update(query, update, options)
或
db.collection.update(<query>, <update>, {upsert: <boolean>,multi: <boolean>,writeConcern: <document>,collation: <document>,arrayFilters: [<filterdocument1>,...],hint: <document|string> //Available starting in MongoDB 4.2
})
参数:
提示:
主要关注前四个参数即可:
[示例]
1.覆盖的修改
如果我们想修改_id为1的记录,点赞量为1001,输入以下语句:
db.comment.update({_id:"1"}, {likenum: NumberInt(1001)
})
执行后,我们会发现,这条文档除了likenum字段其他字段都不见了。
2.局部修改
为了解决这个问题,我们需要使用修改器$set来实现,命令如下:
我们想修改_id为2的记录,浏览量为889,输入以下语句:
db.comment.update({_id:"2"}, {$set: {likenum: NumberInt(889)}
})
这样就OK了。
3.批量的修改
更新所有为1003的用户的昵称为凯撒大帝
//默认只修改第一条数据
db.comment.update({userid: "1003"}, {$set: {nickname: "凯撒2"}
})
//修改所有符合条件的数据
db.comment.update({userid: "1003"}, {$set: {nickname: "凯撒2"}
},{multi: true
})
提示:如果不加后面的参数,则只更新符合条件的第一条记录。
3.列值增长的修改
如果我们想实现对某列值在原有的基础上进行增加或减少,可以使用$inc运算符来实现。
需求:对3号数据的点赞数,每次递增1
db.comment.update({_id:"3"}, {$inc: {likenum: NumberInt(1)}
})
3.4.4删除文档
删除文档的语法结构
db.集合名称.remove(条件)
以下语句可以将数据全部删除,请慎用(暂时不做)
db.comment.remove({})
如果删除_id=1的记录,输入以下语句
db.comment.remove({_id: "1"})
3.5文档的分页查询
3.5.1统计查询
统计查询使用count()方法,语法如下:
db.comment.count(query, options)
参数:
提示:
可选项暂时不使用。
[示例]
1.统计所有记录数
统计comment集合的所有的记录数
db.comment.count()
提示:
默认情况下count()方法返回符合条件的全部记录条数。
3.5.2分页列表查询
可以使用limit()方法来读取指定数量的数据,使用skip()方法来跳过指定数量的数据。
基本语法如下所示:
db.COLLECTION_NAME.limit(NUMBER).skip(NUMBER)
如果你想返回指定条数的记录,可以在find方法后调用limit来返回结果(TopN),默认值20,例如:
db.comment.find().limit(3)
skip方法同样接受一个数字参数作为跳过的记录条数。(前N个不要),默认值是0.
db.comment.find().skip(3)
分页查询:
需求:每页2个,从第二页开始:跳过前两条数据,按着值显示3和4条数据
//第一页
db.comment.find().skip(0).limit(2)
//第二页
db.comment.find().skip(2).limit(2)
//第三页
db.comment.find().skip(4).limit(2)
3.5.3排序查询
sort()方法对数据进行排序,sort()方法可以通过参数指定排序的字段,并使用1和-1来指定排序的方法,其中1为升序排列,而-1是用于降序排列。
语法如下所示:
db.COLLECTION_NAME.find().sort({KEY: 1})
或
db.集合名称.find().sort(排序方式)
例如:
对userid降序排列,并对访问量进行升序排列
db.comment.find().sort({userid: -1, likenum: 1})
提示:
skip(),limit(),sort()三个放在一起执行的时候,执行的顺序是先sort(),然后skip(),最后是显示的limit(),和命令编写顺序无关。
3.6 文档的更多查询
3.6.1 正则的复杂条件查询
MongoDB的模糊查询是通过正则表达式的方法实现的。格式为:
db.collection.find({field: /正则表达式/})
或
db.集合.find({字段: /正则表达式/})
提示:正则表达式是js的语法,直接量的写法。
例如,我要查询评论内容包含”开水“的所有文档,代码如下:
db.comment.find({content: /开水/})
如果要查询评论的内容中以”专家“开头的,代码如下:
db.comment.find({content: /^专家/})
3.6.2比较查询
<,<=,>,>=这个操作符也是很常用的,格式如下:
db.集合名称.find({field: {$gt:value}}) //大于: field> value
db.集合名称.find({field: {$lt:value}}) //小于: field< value
db.集合名称.find({field: {$gte:value}}) //大于等于: field>= value
db.集合名称.find({field: {$lte:value}}) //小于等于: field<= value
db.集合名称.find({field: {$ne:value}}) //不等于: field!= value
db.集合名称.find({field: {$eq:value}}) //等于: field == value
示例:查询评论点赞数量大于700的记录
db.comment.find({likenum: {$gt: NumberInt(700)}})
3.6.3包含查询
包含使用$in操作符
示例:查询评论的集合中userid字段包含1003或1004的文档
db.comment.find({userid: {$in: ["1003", "1004"]}})
不包含使用$nin操作符
示例: 查询评论的集合中userid字段不包含1003或1004的文档
db.comment.find({userid: {$nin: ["1003", "1004"]}})
3.6.4条件连接查询
我们如果需要查询同时满足两个以上条件,需要使用$and操作符将条件进行关联。(相当于SQL的and)
格式为:
$and:[{}, {},{},...]
示例:查询评论集合中likenum大于等于700并且小于2000的文档
db.comment.find({$and:[{likenum: {$gte: NumberInt(700)}},{likenum: {$lt: NumberInt(2000)}}]
})
如果两个以上条件之间是或者的关系,我们使用操作符进行关联,与前面$and的使用方式相同。
格式为:
$or:[{}, {},{},...]
示例:查询评论集合中userid为1003,或者点赞数小于1000的文档集合
db.comment.find({$or:[{userid: "1003"},{likenum: {$lt: NumberInt(1000)}}]
})
3.7常用命令小结
选择切换数据库: use articledb
插入数据: db.comment.insert({bson数据})
查询所有数据: db.comment.find()
条件查询数据: db.comment.find({条件})
查询符合条件的第一条记录:db.comment.findOne({条件})
查询符合条件的前几条记录: db.comment.find({条件}).limit(条数)
查询符合条件的跳过的记录:db.comment.find({条件}).skip(条数)
修改数据: db.comment.update({条件},{修改后的数据})或者db.comment.update({条件},{$set: {要修改部分的字段:数据})
修改数据并自增某字段值:db.comment.update({条件},{$inc: {自增的字段:步进值}})
删除数据: db.comment.remove({条件})
统计查询: db.comment.count({条件})
模糊查询:db.comment.find({字段明:/正则表达式/})
条件比较运算: db.comment.find({字段名:{$gt: 值}})
包含查询: db.comment.find({字段名:{KaTeX parse error: Expected 'EOF', got '}' at position 11: in:[值1,值2]}̲})或db.comment.f…nin:[值1,值2]}})
条件连接查询:db.comment.find({KaTeX parse error: Expected 'EOF', got '}' at position 20: … [{条件1}, {条件2}]}̲)或条件连接查询:db.com…or: [{条件1}, {条件2}]})
四、索引
4.1概述
索引支持在MongoDB中高效地执行查询,如果没有索引,MongoDB必须执行全集合扫描,即扫描集合中的每个文档,以选择与查询语句匹配的文档,这种扫描全集合的查询效率是非常低的,特别在处理大量的数据时,查询可以要花费十几秒甚至几分钟,这对网站的性能是非常致命的,
如果查询存在适当的索引,MongoDB可以使用该索引限制必须查看的文档数。
索引是特俗的数据结构,它以易于遍历的形式存储集合数据集的一小部分,索引存储特定字段或一组字段的值,按字段值排序,索引项的排序支持有效的相等匹配合基于范围的查询操作。此外,MongoDB还可以使用索引中的排序返回排序结果。
了解MongoDB索引使用B树结构(确切的说是B-Tree,MySql是B+Tree)
4.2索引的类型
4.2.1单字段索引
MongoDB支持在文档的单个字段上创建用户定义的升序/降序索引,称为单字段索引,
对于单个字段索引合排序操作,索引键的排序顺序(即升序或降序)并不重要,因为MongoDB可以在任何方向上遍历索引。
4.2.2复合索引
MongoDB还支持多个字段的用户定义索引,即复合索引。
复合索引中列出的字段顺序具有重要意义,例如,如果复合索引由{userId:1, score: -1}组成,则索引首先按userId正序排序,然后在每个userId的值内,再按score倒序排序。
4.2.3 其他索引
地理空间索引、文本索引、哈希索引。
地理空间索引
为了支持地理空间索引坐标数据的有效查询,MongoDB提供了两种特殊的索引:返回结果时使用平面几何的二维索引合返回结果时使用球面几何的二维球面索引。
文本索引
文本索引MongoDB提供了一种文本索引类型,支持在集合中搜索字符串内容。这些文本索引不存储特定于语言的停止词(例如“thie”、“a”、“or”),而将集合中的词作为词干,只存储根词。
文本索引一般由两种情况:
1.和数字没什么区别也是比较大小,就是做字典序比较。
正向索引正向索引 (forward index) 以文档的ID为关键字,表中记录文档中每个字的位置信息,查找时扫描表中每个文档中字的信息直到找出所有包含查询关键字的文档
这种组织方法在建立索引的时候结构比较简单,建立比较方便且易于维护:
2.全文索引,本质和搜索引擎的原理一样,分词以后做倒排序索引。
例如有3条记录,分别是
1.中国人民大学
2.中国科技大学
3.南方科技大学
分词假设只能分出“中国”、“人民”、“科技”、“大学”,“南方”五个词。
那么生成倒序索引如下:中国:1,2
人民:1
科技:2,3
大学:1,2,3
南方:3
用这个索引就可以根据你输入的“科技”找到第2,3条记录包含这个词
对于like %的模糊查询,如果是给定前缀,如中国%,那么可以利用第一种索引,通过前缀可以缩小查询范围。如果前缀是未知的,如%大学,那么就只能全表扫描逐个做字符串匹配了。
正则查询同理,如果正则中有常量前缀,那么可以利用上字符串的索引,否则不能。
倒排索引
当用户在搜索引擎搜索框中输入关键词的时候,搜索引擎就会把和关键词有关的页面展现给用户,而这个过程就叫做倒排索引。
哈希索引
为了支持基于散列的分片,MongoDB提供了散列索引类型,它对字段值的散列进行索引。这些索引在其范围内的值分布更加随机,但只支持相等匹配, Hash 索引不支持顺序和范围查询。 哈希索引不支持排序,因为哈希表是无序的。 哈希索引不支持范围查找。 哈希索引不支持模糊查询及多列索引的最左前缀匹配。
4.3索引的管理操作
4.3.1索引的查看
说明:
返回一个集合中的所有索引的数组
语法:
db.collection.getIndexes()
提示: 该语法命令运行要求是MongoDB 3.0+
【示例】
查看common集合中所有的索引情况
db.common.getIndexes()
[ { "v" : 2, "key" : { "_id" : 1 }, "name" : "_id_" } ]
结果显示的是默认_id索引。
v:代表的MongoDB索引引擎版本,MongoDB底层的数据,不用管;
key:就是在哪个字段上加了索引, 1代表的是升序,-1代表的是降序;
name:索引的名称,默认 字段名称+ “_” +排序方式 ;
ns:命名空间( 数据库.集合),代表某个数据库下的集合的索引数组。
4.3.2索引的创建
说明:
在结合上创建索引
语法:
db.collection.createIndex(keys, options)
参数:
options(更多选项)列表:
提示:
注意在3.0.0版本前创建索引方法为
db.collection.ensureIndex(keys, options)
之后的版本使用了
db.collection.createIndex(keys, options)
方法,db.collection.ensureIndex(keys, options)还能用,但只是db.collection.createIndex(keys, options)的别名。
【示例】
新增common集合索引
db.common.createIndex({userId: 1})
此时就有两个索引记录。
复合索引创建
db.common.createIndex({userId: 1, ckname: -1})
4.3.3索引的移除
说明:可以移除指定的索引,或者移除所有索引
一、指定索引的移除
语法:
db.collection.dropIndex(index)
参数:
【示例】
删除common集合中userId字段上的升序索引
db.common.dropIndex({userId: 1})
通过名称删除
db.common.dropIndex("userId_1_ckname_-1")
二、所有索引的移除
语法:
db.collection.dropIndexes()
【示例】
db.common.dropIndexes()
_id不要期望会被干掉,它是永远不会被干掉的。
4.4索引的使用
4.4.1执行计划
分析查询性能通常使用执行计划(解析计划)来查看查询的情况,如查询耗费的时间,是否基于索引查询等。
那么,通常,我们想知道,建立的索引是否有效,效果如何,都需要通过执行计划查看。
语法:
db.collection.find(query, options).explain(options)
【示例】
查看根据userid查询数据的情况:
db.comment.find({userid: "1003"}).explain()
stage: “COLLSCAN”,COLL代表的是当前集合,集合全局扫描。
下面对userid建立索引
db.comment.createIndex({userid: 1})
再次查看执行计划
stage: “FETCH”,代表的是抓取, 下方的stage:“IXSCAN” 是索引扫描,整体就是索引扫描然后再根据索引结果进行抓取
4.4.2涵盖的查询
当查询条件和查询的投影仅包含索引字段时,MongoDB直接从索引返回结果,而不扫描任何文档或者将文档带入内存。这些航海的查询可以非常有效(同Mysql中的回表问题)。
[示例]
db.comment.find({userid: "1003"}, {userid:1, _id:0})
MongoDB集群和安全
课程目标
- MongoDB的副本集: 操作、主要概念、故障转移、选举规则
- MongoDB的分片集群:概念、优点、操作、分片策略、故障转移
- MongoDB的安全认证
一、副本集-Replica Sets
1.1简介
MongoDB中的副本集(Replica Set)是一组维护相同数据集的mongodb服务。副本集可提供冗余和高可用性,是所有生产部署的基础。
也可以说,副本集类似于有自动故障恢复功能的主从集群,通俗的讲就是用多台机器进行同一数据的异步同步, 从而使多台机器拥有同一数据的多个副本,并且当主库宕机时不需要用户干预的情况下自动切换其他被跟服务器做主库。而且还可以利用副本服务器只读服务器,实现读写分离,提高负载。
1,冗余和数据可用性
复制提供冗余并提高数据可用性。通过在不同数据库服务器上提供多个数据副本,复制可提供一定级别的容错功能,以防止丢失单个数据库服务器。
在某种情况下,复制可以提供增加的读取性能,因为客户端可以将读取操作发送到不同的服务上,在不同数据中心维护数据副本可以增加分布式应用程序的数据位置和可用性。您还可以为专用的目的维护其他副本,例如灾难恢复,报告或备份。
2.MongoDB中的复制
副本集是一组维护相同数据集的mongodb实例。副本集包含多个数据承载节点和可选的一个仲裁节点。在承载数据的节点中,有且只有一个成员被视为主节点,而其他节点被视为次要(从)节点。
主节点接收所有写操作。副本集只能有一个主要能确认具有{w: “most”}写入关注的写入;虽然在某些情况下,另一个mongodb实例可能暂时人为自己也是主要的。主要记录其操作日志中的数据集的所有更改,即oplog。
辅助(副本)节点复制节点的oplog并操作用于其数据集,以使辅助节点的数据集反应主节点的数据集。如果主要人员不在,则符合条件的将矩形选举以选出新的主要人员。
3.主从复制和副本集区别
主从集群和副本集最大的区别就是副本集没有固定的"主节点";整个集群会选出一个”主节点“,当其挂掉后,又在剩下的从节点中选中其他节点作为”主节点“,副本集总有一个活跃点(主,primary)和一个或多个备份节点(从, secondary)。
1.2副本集的三个角色
副本集有两种类型三种角色
两种类型
- 主节点(Primary)类型: 数据操作的主要连接点,可读写。
- 次要(辅助、从)连接点(Secondary)类型:数据冗余备份节点,可以读或选举。
三种角色:
主要成员(primary):主要接收所有写操作。就是主节点。
副本成员(Replicate):从节点通过复制操作以维护相同的数据集,即备份数据,不可写操作,但可以读操作(但需要配置)。是默认的一种从节点类型。
仲裁者(Arbiter):不可保留任何数据的副本,只具有投票选举作用。当然也可以将仲裁服务器为副本集的一部分,即副本成员同时也可以是仲裁者。也是一种从节点类型。
## 1.3副本集架构目标
一主一副一仲裁
1.4副本集的创建
1.4.1第一步:创建主节点
mkdir -p /mongodb/relica_sets/myrs_27017/log & \
mkdir -p /mongodb/relica_sets/myrs_27017/data/db
新建或修改配置文件
vim /mongodb/relica_sets/myrs_27017/mongod.conf
linux下的mongod.conf配置文件内容:
systemLog:#MongoDB发送所有日志输出的目标指定为文件destination: filepath: "/mongodb/relica_sets/myrs_27017/log/mongod.log"#当mongos或者mongod实例重新启动时,mongos或者mongod会将新条目附加到现有日志文件的末尾logAppend: truestorage:#mongod实例存储其数据的目录。storage.dbPath设置仅适用于mongodbdbPath: "/mongodb/relica_sets/myrs_27017/data/db"journal:#启用或者禁用持久性日志以确保数据文件保持有效和可恢复到宕机前enabled: true
processManagement:#启用在后台运行mongos或mongod进程的守护进程模式fork: true#指定用于保存mongos或mongod进程的额进城ID的文件位置,其中mongos或mongod将写入其PIDpidFilePath: "/mongodb/relica_sets/myrs_27017/log/mongod.pid"
net:#服务实例绑定所有IP,有副作用,副本集初始化的时候,节点名字会自动设置为本地域名,而不是ip#bindIpAll: true#服务实力绑定的IPbindIp: localhost, 192.168.0.2#bindIp#绑定的端口port: 27017
replication:#副本集的名称replSetName: myrs
windows下的mongod.conf配置文件内容:
systemLog:#MongoDB发送所有日志输出的目标指定为文件destination: filepath: D:\SOFTWARE\mongodb_group\mongodb_27017\log\mongod.log#当mongos或者mongod实例重新启动时,mongos或者mongod会将新条目附加到现有日志文件的末尾logAppend: truestorage:#mongod实例存储其数据的目录。storage.dbPath设置仅适用于mongodbdbPath: D:\SOFTWARE\mongodb_group\mongodb_27017\data\dbjournal:#启用或者禁用持久性日志以确保数据文件保持有效和可恢复到宕机前enabled: true
processManagement:#启用在后台运行mongos或mongod进程的守护进程模式#fork: true#指定用于保存mongos或mongod进程的额进城ID的文件位置,其中mongos或mongod将写入其PIDpidFilePath: D:\SOFTWARE\mongodb_group\mongodb_27017\log\mongod.pid
net:#服务实例绑定所有IP,有副作用,副本集初始化的时候,节点名字会自动设置为本地域名,而不是ip#bindIpAll: true#服务实力绑定的IPbindIp: localhost#bindIp#绑定的端口port: 27017
replication:#副本集的名称replSetName: myrs