用案例详解HBase二级索引的设计

发布时间：2021-03-04 15:42:55 所属栏目：动态来源：互联网

导读：索引的本质就是建立各列值与行键之间的映射关系如(图1)，当要对F:C1这列建立索引时，只需要建立F:C1各列值到其对应行键的映射关系，如C11-RK1等，这样就完成了对F:C1列值的二级索引的构建，当要查询符合F:C1=C11对应的F:C2的列值时(即根据C1=C11来查询C2的

索引的本质就是建立各列值与行键之间的映射关系

如(图1)，当要对F:C1这列建立索引时，只需要建立F:C1各列值到其对应行键的映射关系，如C11->RK1等，这样就完成了对F:C1列值的二级索引的构建，当要查询符合F:C1=C11对应的F:C2的列值时(即根据C1=C11来查询C2的值,图1青色部分)其查询步骤如下： 1. 根据C1=C11到索引数据中查找其对应的RK，查询得到其对应的RK=RK1 2. 得到RK1后就自然能根据RK1来查询C2的值了这是构建二级索引大概思路，其他组合查询的联合索引的建立也类似。

有两个列族，其中一个是列族INDEX，其并不存储任何的数据，仅仅是为了将索引数据与主数据分开存储(因为在HBase中同一列族的数据会被压缩在一起存储)，索引数据的行键格式为：RegionStartKey-索引名-索引键-Rowkwy,其他RegionStartKey就是出发点，因为在创建HBase表时就对表根据出发点进行了预分区，索引键为主数据中某列(可能是多列)的列值，Rowkey对应主数据的行键;主数据的行键格式为：出发点-目的地-性价比，所以在存储数据时，同一出发点目的地的数据默认是按性价比排序的;索引数据的行键和主数据的行键的前缀都是出发点，所以在存储时相同出发点的索引数据和主数据是存储在同一个Region中的，这样避免了在通过索引得到RK后又去其他Region上查询目标数据，提高了查询效率。

数据的查询过程

假设查询的条件：

出发点：澳门
目的地：杭州
出游天数：3天
酒店等级：4

其查询步骤如下：

首先根据查询条件来确定索引名，根据其查询条件为出游天数据酒店等级确定索引名为aaa,这样就将查询的范围缩小在索引名为aaa的索引数据区内
根据出游天数的值为3天，酒店等级的值为4，结合Phoenix的模糊查询就能确定符合这两个查询条件的索引数据的行键
得到索引数据行键后就截取其最后的RowKey
最关键的Rowkey得到后就能轻易的获得其对应的列值了，整个查询过程就结束了。

对于其他更为复杂的组合查询的二级索引设计如类似。

缺点

需要额外的存储空间，属一种以空间换时间的方式。

（编辑：平顶山站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

VR的产业拐点来临了吗	商品推广的主要逻辑是
南京创立全国首家用电	元宇宙笔记 Web3.0的移