MapReduce Shuffle和Spark Shuffle

发表于 2020-06-21 分类于大数据， Shuffle
本文字数： 7.5k 阅读时长 ≈ 7 分钟

Shuffle简介Shuffle的本意是洗牌、混洗的意思，把一组有规则的数据尽量打乱成无规则的数据。而在MapReduce中，Shuffle更像是洗牌的逆过程，指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据，以便reduce端接收处理。其在MapReduce中所处的工作阶段是m ...

阅读全文 »

HiveSQL常用优化方法总结

发表于 2020-06-17 分类于大数据， HIVE
本文字数： 10k 阅读时长 ≈ 9 分钟

转自公众号大数据技术与架构原文链接 HiveSQL常用优化方法全面总结 Hive作为大数据领域常用的数据仓库组件，在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大，而是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等。对Hive的调优既包 ...

阅读全文 »

Spark 数据倾斜及其解决方案

发表于 2020-03-01 分类于大数据， Spark
本文字数： 9k 阅读时长 ≈ 8 分钟

本文从数据倾斜的危害、现象、原因等方面，由浅入深阐述Spark数据倾斜及其解决方案。一、什么是数据倾斜对 Spark/Hadoop 这样的分布式大数据系统来讲，数据量大并不可怕，可怕的是数据倾斜。对于分布式系统而言，理想情况下，随着系统规模（节点数量）的增加，应用整体耗时线性下降。如果一台机器处 ...

阅读全文 »

HIVE之数据倾斜的原因和解决方法

发表于 2020-02-20 分类于大数据， HIVE
本文字数： 3.4k 阅读时长 ≈ 3 分钟

1 数据倾斜的原因1.1 操作关键词情形后果 Join 其中一个表较小，但是key集中分发到某一个或几个Reduce上的数据远高平均值大表与大表，但是分桶的判断字段0值或空值过多这些空值都由一个reduce处理，非常慢 group by group by 维度过小，某 ...

阅读全文 »

Spark on Yarn部署流程

发表于 2020-02-11 分类于大数据， Spark
本文字数： 3.8k 阅读时长 ≈ 3 分钟

Spark on Yarn1 原理Spark yarn 模式有两种， yarn-client, yarn-cluster, 其中yarn-client适合测试环境， yarn-cluster适合生产环境。在详细说明Yarn模式之前，需要先了解几个名词 ResourceManager: 整个集群只 ...

阅读全文 »

一文快速搞懂HBase RowKey设计

发表于 2020-01-15 分类于大数据， Hbase
本文字数： 3.3k 阅读时长 ≈ 3 分钟

作者：digger30 链接：https://www.jianshu.com/p/89bcd80890d6 HBase作为一个数据库，在使用中无外乎增删改查操作，这些操作在HBase中都是和RowKey紧密相关的，所以优秀的RowKey设计方案是非常重要的。 RowKey的作用RowKey在 ...

阅读全文 »

为什么不建议在 HBase 中使用过多的列族

发表于 2020-01-03 分类于大数据， Hbase
本文字数： 2.6k 阅读时长 ≈ 2 分钟

我们知道，一张 HBase 表包含一个或多个列族。HBase 的官方文档中关于 HBase 表的列族的个数有两处描述： A typical schema has between 1 and 3 column families per table. HBase tables should not b ...

阅读全文 »

Hive优化

发表于 2019-12-20 分类于大数据， HIVE
本文字数： 4.7k 阅读时长 ≈ 4 分钟

原文链接：https://blog.csdn.net/l1028386804/article/details/80629279 一、Hive优化目标在有限的资源下，提高执行效率二、Hive执行HQL——> Job——> Map/Reduce 三、执行计划查看执行计划 explai ...

阅读全文 »

Spark Streaming 基本操作

发表于 2019-11-21 分类于大数据， Spark
本文字数： 8.7k 阅读时长 ≈ 8 分钟

Spark Streaming 基本操作一、案例引入这里先引入一个基本的案例来演示流的创建：获取指定端口上的数据并进行词频统计。项目依赖和代码实现如下： <dependency> <groupId>org.apache.spark</groupId> ...

阅读全文 »

JVM类加载子系统

发表于 2019-11-19 分类于 java ， JVM
本文字数： 2.8k 阅读时长 ≈ 3 分钟

内存结构概述类加载器●类加载器子系统负责从文件系统或者网络中加载Class文件，class文件在文件开头有特定的文件标识。 ●ClassLoader只负贵class文件的加载，至于它是否可以运行，则由Execution Engine决定。 ●加载的类信息存放于一块称为方法区的内存空间。除了类的信 ...

阅读全文 »