hive sql一直跑到reduce=100%，然后挂掉重新跑-EW帮帮网

问题：数据倾斜

数据倾斜就是数据的分布不平衡，某些地方特别多，某些地方又特别少，导致的在处理数据的时候，有些很快就处理完了，而有些又迟迟未能处理完，导致整体任务最终迟迟无法完成，这种现象就是数据倾斜。

针对mapreduce的过程来说就是，有多个reduce，其中有一个或者若干个reduce要处理的数据量特别大，而其他的reduce处理的数据量则比较小，那么这些数据量小的reduce很快就可以完成，而数据量大的则需要很多时间，导致整个任务一直在等它而迟迟无法完成。

跑不出来，可能是数据倾斜的问题

跑mr任务时常见的reduce的进度总是卡在99%，这种现象很大可能就是数据倾斜造成的。

问题的本质

1） key的分布不均匀或者说某些key太集中。

上面就说过，reduce的数据量大小差异过大，而reduce的数据是分区的结果，分区是对key求hash值，根据hash值决定该key被分到某个分区，进而进入到某个reduce，而如果key很集中或者相同，那么计算得到它们的hash值可能一样，那么就会被分配到同一个reduce，就会造成这个reduce所要处理的数据量过大。

2）业务数据自身的特性。

比如某些业务数据作为key的字段本就很集中，那么结果肯定会导致数据倾斜啊。

还有其他的一些原因，但是，根本原因还是key的分布不均匀，而其他的原因就是会造成key不均匀，进而导致数据倾斜的后果，所以说根本原因是key的分布不均匀。

解决方案

简单地说数据倾斜这种现象导致的任务迟迟不能完成，耗费了太多时间，极大地影响了性能，所以我们数据倾斜的解决方案设计思路就是往如何提高性能，即如何缩短任务的处理时间这方面考虑的，而要提高性能，就要让key分布相对均衡，所以我们的终极目标就是考虑如何预处理数据才能够使得它的key分布均匀。

常见的数据倾斜处理方案：

0 数据处理

如果对某个字段进行排序，此字段格式是浮点数型，并且是模型预测的，小数点位数有点多，则可能会遇到排序速度过慢，导致运行时间超长。

可以把数据进行处理，例如换排名字段，或者是对数据进行乘法+截断处理。

1 设置参数

1）设置hive.map.aggr=true //开启map端部分聚合功能，就是将key相同的归到一起，减少数据量，这样就可以相对地减少进入reduce的数据量，在一定程度上可以提高性能，当然，如果数据的减少量微乎其微，那对性能的影响几乎没啥变化。

2）设置hive.groupby.skewindata=true //如果发生了数据倾斜就可以通过它来进行负载均衡。当选项设定为 true，生成的查询计划会有两个 MR Job。第一个 MR Job 中，Map 的输出结果集合会随机分布到 Reduce 中，每个 Reduce 做部分聚合操作，并输出结果，这样处理的结果是相同的Key 有可能被分发到不同的 Reduce 中，从而达到负载均衡的目的；第二个 MR Job 再根据预处理的数据结果按照Key 分布到 Reduce 中（这个过程是按照key的hash值进行分区的，不同于mr job1的随机分配，这次可以保证相同的Key 被分布到同一个 Reduce 中），最后完成最终的聚合操作。所以它主要就是先通过第一个mr job将key随机分配到reduce，使得会造成数据倾斜的key可能被分配到不同的reduce上，从而达到负载均衡的目的。到第二个mr job中，因为第一个mr job已经在reduce中对这些数据进行了部分聚合（就像单词统计的例子，a这个字母在不同的reduce中，已经算出它在每个reduce中的个数，但是最终的总的个数还没算出来，那么就将它传到第二个mr job，这样就可以得到总的单词个数），所以这里直接进行最后的聚合就可以了。

3）hive.exec.reducers.bytes.per.reducer=1000000000 （单位是字节）

每个reduce能够处理的数据量大小，默认是1G

2 sql语句优化

需要处理一些共性的数据，过滤掉为空字符串的，null的数据

1）进行表的join这种业务操作时，经常会产生数据倾斜。

原因就是这些业务数据本就存在key会分布不均匀的风险，所以我们join时不能使用普通的join（reduce端join）或者可以使用普通join，但是是优化后的。

大表的join

方法1：（普通join）

select * from log a join users b on （a.user_id is not null and a.user_id = b.user_id ）；

这是属于表的内连接的，两张表不满足条件的记录都不保留。

方法2：检测到user_id是null时给它赋予一个新值（这个新值由一个字符串（比如我自己给它定一个 hive）加上一个随机数组成），这样就可以将原来集中的key分散开来，也避免了数据倾斜的风险。

select * from log a join users b on case when a.user_id is null then concat(‘hive’,rand() ) else a.user_id end = b.user_id;

hive的优化还有其他方面的，例如where子句优化：

select * from a left outer join b on (a.key=b.key) where a.date='2017-07-11' and b.date='2017-07-11';

这是一个左外连接。

这个sql语句执行的结果是：得到的结果是表a与表b的连接表，且表中的记录的date都是'2017-07-11'。

而这个sql语句的执行过程是：逐条获取到a表的记录，然后扫描b表，寻找字段key值为a.key的记录,找到后将b表的这条记录连接到a表上，然后判断连接后的这条记录是否满足条件a.date='2017-07-11' and b.date='2017-07-11'，如果满足，则显示，否则，丢弃。

将刚才的where限制条件直接放到on里面，那么就变成了满足这三个条件才会进行连接，不满足的直接过滤掉，就像上面所说的，少了无效连接那一步，就相对地节约了时间，如果这样的无效连接的记录很多的话，那么采用这种改进版的方案无疑能够较大程度地提高性能。

select * from a left outer join b on (a.key=b.key and a.date='2017-07-11' and b.date='2017-07-11'）;

hive sql一直跑到reduce=100%，然后挂掉重新跑

网站公告

今日签到

热门文章

最新发布