本文分享自华为云社区 《华为云HBase 冷热分离最佳实践》,作者:pippo。
HBase是Hadoop Database的简称,是建立在Hadoop文件系统之上的分布式面向列的数据库,它具有高可靠、高性能、面向列和可伸缩的特性,提供快速随机访问海量数据能力。
HBase采用Master/Slave架构,由HMaster节点、RegionServer节点、ZooKeeper集群组成,底层数据存储在HDFS上。
整体架构如图所示:
HMaster主要负责:
RegionServer主要负责:
ZooKeeper集群主要负责:
HDFS集群主要负责:
结构说明:
Store
MemStore
StoreFile
HFile
HLog(WAL)
HBase提供两种API来写入数据。
HBase是Hadoop Database的简称,是建立在Hadoop文件系统之上的分布式面向列的数据库,它具有高可靠、高性能、面向列和可伸缩的特性,提供快速随机访问海量数据能力。
在海量大数据场景下,表中的部分业务数据随着时间的推移仅作为归档数据或者访问频率很低,同时这部分历史数据体量非常大,比如订单数据或者监控数据,如果降低这部分数据的存储成本将会极大的节省企业的成本。
冷热分离功能支持将冷热数据存储在不同的介质上,冷数据的存储类型为普通IO存储,热数据的存储类型为超高IO存储。普通IO存储的价格仅为超高IO存储的30%,大大降低了存储成本。
HBase支持对同一张表的数据进行冷热分离存储。用户在表上配置数据冷热时间分界点后,HBase会依赖用户写入数据的时间戳(毫秒)和时间分界点来判断数据的冷热。数据开始存储在热存储上,随着时间的推移慢慢往冷存储上迁移。同时用户可以任意变更数据的冷热分界点,数据可以从热存储到冷存储,也可以从冷存储到热存储。
整体架构如图所示:
设置表的冷热分界线
创建冷热分离表:
hbase(main):002:0> create 'hot_cold_table', {NAME=>'f', COLD_BOUNDARY=>'86400'}
参数说明:
NAME:需要冷热分离的列族。
COLD_BOUNDARY:冷热分离时间点,单位为秒(s)。例如COLD_BOUNDARY为86400,代表86400秒(一天)前写入的数据会被自动归档到冷存储。
取消冷热分离。hbase(main):004:0> alter 'hot_cold_table', {NAME=>'f', COLD_BOUNDARY=>""}
为已经存在的表设置冷热分离,或者修改冷热分离分界线,单位为秒。
hbase(main):005:0> alter 'hot_cold_table', {NAME=>'f', COLD_BOUNDARY=>'86400'}
查询冷热分离是否设置或者修改成功hbase(main):005:0> desc 'hot_cold_table'
数据写入冷热分离的表与普通表的数据写入方式完全一致,数据会先存储在热存储(超高IO)中。随着时间的推移,如果一行数据满足当前时间-时间列值>COLD_BOUNDARY设置的值条件,则会在执行Compaction时被归档到冷存储(普通IO)中。
插入记录执行“put”命令往指定表插入一条记录,需要指定表的名称,主键,自定义列,以及插入的具体值。
hbase(main):004:0> put 'hot_cold_table','row1','cf:a','value1'
参数说明:
hot_cold_table:表的名称。
row1:主键。
cf:a:自定义的列。
value1:插入的值。
数据查询由于冷热数据都在同一张表中,因此用户所有的查询操作都只需在一张表内进行。在查询时,建议通过配置TimeRange来指定查询的时间范围,系统将会根据指定的时间范围决定查询模式,即仅查询热存储、仅查询冷存储或同时查询冷存储和热存储。如果查询时未限定时间范围,则会导致查询冷数据。在这种情况下,查询吞吐量会受到冷存储的限制。
随机查询
不指定HOT_ONLY参数来查询数据。在这种情况下,将会查询冷存储中的数据。
hbase(main):001:0> get 'hot_cold_table', 'row1'
通过指定HOT_ONLY参数来查询数据。在这种情况下,只会查询热存储中的数据。
hbase(main):002:0> get 'hot_cold_table', 'row1', {HOT_ONLY=>true}
通过指定TimeRange参数来查询数据。在这种情况下,CloudTable将会比较TimeRange和冷热边界值,以确定是只查询热存储还是冷存储中的数据,还是同时查询热冷存储中的数据
hbase(main):003:0> get 'hot_cold_table', 'row1', {TIMERANGE => [0, 1568203111265]}
范围查询
不指定HOT_ONLY参数来查询数据。在这种情况下,将会查询冷存储中的数据。
hbase(main):001:0> scan 'hot_cold_table', {STARTROW =>'row1', STOPROW=>'row9'}
通过指定HOT_ONLY参数来查询数据。在这种情况下,只会查询热存储中的数据。hbase(main):002:0> scan 'hot_cold_table', {STARTROW =>'row1', STOPROW=>'row9', HOT_ONLY=>true}
通过指定TimeRange参数来查询数据。在这种情况下,CloudTable将会比较TimeRange和冷热边界值,以确定是只查询热存储还是冷存储中的数据,还是同时查询热冷存储中的数据。
hbase(main):003:0> scan 'hot_cold_table', {STARTROW =>'row1', STOPROW=>'row9', TIMERANGE => [0, 1568203111265]}
数据合并
hbase(main):002:0> major_compact 'hot_cold_table', nil, 'NORMAL', 'HOT'
hbase(main):002:0> major_compact 'hot_cold_table', nil, 'NORMAL', 'COLD'
hbase(main):002:0> major_compact 'hot_cold_table', nil, 'NORMAL', 'ALL'
MySQL 8.0中的数据字典,通过对两级缓存的逐级访问,以及精妙的对缓存未命中情况的处理方式,有效的加速了在不同场景下数据库对DD的访问速度,显著的提升了数据库访问元数据信息的效率。