1. 数据库管理
操作 HBase Hive Redis MongoDB 创建数据库 N/A (HBase 没有数据库概念) CREATE DATABASE db_name;
N/A (Redis 没有数据库命名功能) use db_name;
(自动创建)查看数据库 N/A SHOW DATABASES;
INFO
查看全局信息show dbs;
删除数据库 N/A DROP DATABASE db_name CASCADE;
N/A db.dropDatabase();
切换数据库 N/A USE db_name;
SELECT db_index
use db_name;
2. 表管理
以下是 HBase 、Hive 、Redis 和 MongoDB 中进行表结构增改操作的总结,具体包括表的增加和修改操作。
操作 HBase Hive Redis MongoDB 增加表 创建时指定列族 create 'table_name', 'cf1', 'cf2'
创建带版本的表 create 'version_table', {NAME => 'cf', VERSIONS => 5}
CREATE TABLE table_name (...);
N/A (键值对模型,没有表结构) db.createCollection("table_name")
修改表 alter 'table_name', {NAME => 'new_cf', METHOD => 'add'}
添加列族或修改表的配置ALTER TABLE table_name ADD COLUMNS (column_definition);
修改键值对:SET key_name value
db.table_name.updateOne()
, db.table_name.updateMany()
查看表 list
SHOW TABLES;
KEYS *
查询所有键show collections;
表结构 describe 'table_name'
DESCRIBE table_name;
查看详细信息DESCRIBE table_name;
N/A db.table_name.stats()
删除表 disable 'table_name'
drop 'table_name'
DROP TABLE table_name;
DEL key_name
db.table_name.drop()
3. 数据操作
插入数据
操作 HBase Hive Redis MongoDB 插入单行 put 'table_name', 'row1', 'cf1:col1', 'value'
INSERT INTO table_name VALUES (...);
插入键值对字段SET key value
插入哈希表字段 HSET hkey:hvalue key value
db.table_name.insert({...})
批量插入 使用脚本或 API 插入 LOAD DATA INPATH 'path' INTO TABLE ...;
MSET key1 value1 key2 value2
db.table_name.insertMany([{...}])
查询数据
操作 HBase Hive Redis MongoDB 查询所有数据 scan 'table_name'
SELECT * FROM table_name;
KEYS *
查询所有键HGETALL hkey:hvalue
db.table_name.find()
按条件查询 get 'table_name', 'row1'
查询版本数据get 'my_table', 'row1', {COLUMN => 'cf:column1', VERSIONS => 3}
SELECT * FROM table_name WHERE ...;
GET key
db.table_name.find({...})
字段查询 get 'table_name', 'row1', 'cf1:col1'
SELECT col1 FROM table_name;
HGET hkey:hvalue key value
db.table_name.find({}, {field: 1})
更新数据
操作 HBase Hive Redis MongoDB 更新单个值 put 'table_name', 'row1', 'cf1:col1', 'new_value'
UPDATE table_name SET col1 = ... WHERE ...;
SET key new_value
db.table_name.updateOne({...}, {$set: {...}},true.false)
参数1:查询条件,类似sql update 查询内 where 后的条件;参数2:update 的对象,类似 sql 中 update 中 set 后的内容;参数3:如果没有 update 的记录,true 表示插入,默认 false, 表示不插入;参数4:默认 false 表示只更新找到的第一条记录,true 表示更新所有满足条件的记录。批量更新 使用脚本或 API 批量更新 批量更新不常见 不支持直接批量更新,需逐个设置 db.table_name.updateMany({...}, {$set: {...}})
删除数据
操作 HBase Hive Redis MongoDB 删除单行 delete 'table_name', 'row1'
DELETE FROM table_name WHERE ...;
DEL key
db.table_name.deleteOne({...})
删除某字段 delete 'table_name', 'row1', 'cf1:col1'
N/A HDEL hash_key field
db.table_name.update({...}, {$unset: {field: 1}})
删除所有数据 删除表再重建 TRUNCATE TABLE table_name;
FLUSHDB
db.table_name.deleteMany({})
4. 其他管理操作
操作 HBase Hive Redis MongoDB 查看存储状态 status
查看 Hadoop 状态,需依赖 HDFS INFO
查看运行状态db.stats()
备份数据 使用快照或导出工具 使用 HDFS 导入导出功能 保存 RDB/AOF 文件 使用 mongodump
恢复数据 使用快照恢复 使用 HDFS 数据恢复 载入 RDB/AOF 文件 使用 mongorestore
查看日志 检查 HBase 日志目录 检查 Hadoop 日志 查看 Redis 日志文件 查看 MongoDB 日志文件
启动和关闭操作总结
数据库 启动命令 关闭命令 说明 Hadoop ./sbin/start-dfs.sh
和 start-yarn.sh
./sbin/stop-dfs.sh
和 stop-yarn.sh
启动 Hadoop 分布式文件系统(HDFS)和资源调度框架(YARN),其他组件如 Hive/HBase 均依赖它 HBase ./bin/start-hbase.sh
./bin/stop-hbase.sh
集群模式下,需确保 Zookeeper 服务已启动;依赖 HDFS 提供存储支持 Hive ./bin/hive
或 hive --service hiveserver2 &
exit
需先启动 Hadoop 服务,包括 HDFS 和 YARN,Hive 基于 Hadoop 提供 SQL 接口Redis ./src/redis-server
redis-cli shutdown
或 kill <pid>
简单高效,适合开发和缓存场景,独立运行,无需依赖其他服务 MongoDB sudo service mongod start
或 mongod --config ...
sudo service mongod stop
或db.shutdownServer()
默认无密码,生产环境建议配置用户权限和访问限制,独立运行,无需依赖其他服务
特点总结
数据库特点对比表
特性/维度 HBase Hive Redis MongoDB 数据库类型 分布式 NoSQL 数据库,基于 HDFS 的列式存储 分布式 SQL 数据仓库,基于 Hadoop 的批处理框架 内存型键值对数据库 文档型 NoSQL 数据库,最像关系型数据库的非关系型数据库 数据模型 行键 + 列族 + 列的多维度数据模型 传统关系型数据库表模型(Schema),支持分区表和桶表 键值对模型(字符串、哈希、列表、集合、有序集合、Stream) BSON 文档模型(类 JSON),支持嵌套数据 存储机制 基于 HDFS 的列族存储,分布式存储,适合稀疏表 基于 HDFS 存储,通过 MapReduce 或 Tez 实现查询和处理 内存存储,支持持久化为 RDB 文件或 AOF 文件 二进制 JSON (BSON) 存储,支持分布式存储 查询语言 无查询语言,主要通过 Shell (scan和get)或编程接口(如 Java API)操作 HiveQL(类似 SQL 的查询语言),支持简单的 SQL 操作 无查询语言,命令操作(如 GET
, SET
, HGET
) 丰富的查询语言,支持 JSON 格式的复杂查询 事务支持 不支持事务,提供最终一致性 不支持事务,数据主要用于批量查询 支持简单事务(MULTI/EXEC),5.0+ 支持 Lua 脚本事务 支持多文档事务 扩展性 高扩展性,支持 PB 级数据,适合大规模分布式集群 高扩展性,依赖 Hadoop 的分布式架构 高扩展性,支持主从复制和分布式分片 高扩展性,支持分片和复制集 性能 写性能高,读性能较慢,适合实时写入大规模稀疏数据 查询速度慢,依赖 Hadoop 集群执行,适合离线批量查询 极高的读写性能(内存操作),适合实时请求场景 性能较高,适合多样化的数据存储和查询 适用场景 实时写入和查询大规模稀疏表,如 IoT 数据、时间序列数据 大规模数据的批量分析,如数据仓库、报表生成 高速缓存、会话管理、实时计数、排行榜等 应用程序数据库、文档存储、复杂查询场景 数据一致性 提供最终一致性 依赖底层 HDFS 的容错性,最终一致性 单机模式强一致性,分布式模式支持最终一致性 强一致性,支持多文档事务 索引机制 不支持二级索引,查询需按行键检索 依赖分区、桶和 HDFS 的 MapReduce 索引机制 数据类型内置索引(如有序集合),但无复杂索引 支持单字段索引、复合索引、地理空间索引等 编程接口 提供 Java、Python、Thrift 等多种 API,适合与应用程序集成 提供 JDBC/ODBC 接口,适合与 BI 工具和数据分析工具集成 提供多语言客户端库(Python、Java、Node.js 等),简单易用 提供多语言客户端(Python、Java、Node.js 等),支持复杂的查询语法 集群模式 支持分布式集群部署,分布式读写性能高 Hadoop 环境下支持集群部署 主从复制、分布式分片,支持高可用和负载均衡 支持分片集群和复制集模式,适合高并发和高可用场景 持久化机制 数据存储在 HDFS 上,依赖 HDFS 的容错机制 通过 HDFS 持久化 支持 RDB 快照和 AOF 持久化 持久化数据到磁盘,支持定期备份和恢复 开发难度 操作复杂度高,学习曲线陡峭,需要深入理解 HDFS 和 MapReduce 的工作原理 接近传统 SQL,适合有 SQL 基础的开发者 简单易用,入门门槛低,适合轻量级数据管理 易用性较高,灵活性强,适合需要快速开发的场景 高可用支持 支持 HBase Master 和 RegionServer 的容错和自动恢复 高可用性依赖 Hadoop 的容错机制 主从复制和哨兵模式,支持快速故障转移 支持复制集机制,实现高可用性 典型应用 大数据实时存储与分析:物联网、日志存储、金融流水数据 数据仓库与离线分析:ETL、报表生成、用户行为分析 实时缓存:Web 应用、实时统计、消息队列、限流 灵活应用场景:内容管理系统、用户画像、移动应用数据库 开源与维护 开源项目,Apache 基金会维护,活跃度高 开源项目,Apache 基金会维护,广泛应用于大数据处理 开源项目,Redis Labs 维护,社区活跃 开源项目,MongoDB Inc. 维护,商业支持和社区支持丰富
选择建议
使用场景 推荐数据库 实时写入和随机读取大规模稀疏数据 HBase 离线批量处理和数据分析 Hive 高并发实时缓存或会话管理 Redis 灵活存储和复杂查询场景 MongoDB