Hbase系统架构及数据结构一、基本概念一个典型的 Hbase Table 表如下: 1.1 Row Key (行键)Row Key 是用来检索记录的主键。想要访问 HBase Table 中的数据,只有以下三种方式: 通过指定的 Row Key 进行访问; 通过 Row Key 的 rang ...
Kafka消费者详解
Kafka消费者详解一、消费者和消费者群组在 Kafka 中,消费者通常是消费者群组的一部分,多个消费者群组共同读取同一个主题时,彼此之间互不影响。Kafka 之所以要引入消费者群组这个概念是因为 Kafka 消费者经常会做一些高延迟的操作,比如把数据写到数据库或 HDFS ,或者进行耗时的计算,在 ...
集群同步脚本xsync
该脚本用于在所有主机上同步文件。在 /usr/local/bin目录下,创建文件xsync,向里面添加如下代码: #!/bin/bash#1 获取输入参数个数,如果没有参数,直接退出pcount=$#if((pcount==0)); thenecho no args;exit;fi#2 获取文件名称 ...
集群批量命令脚本xcall
该脚本用于在所有主机上同时执行相同的命令。在 /usr/local/bin目录下,创建文件xcall,向里面添加: #!/bin/shpcount=$#if((pcount==0));then echo no args...; exit;fifor((host=101; ...
Flume 整合 Kafka
Flume 整合 Kafka一、背景先说一下,为什么要使用 Flume + Kafka? 以实时流处理项目为例,由于采集的数据量可能存在峰值和峰谷,假设是一个电商项目,那么峰值通常出现在秒杀时,这时如果直接将 Flume 聚合后的数据输入到 Storm 等分布式计算框架中,可能就会超过集群的处理能力 ...
深入理解Kafka副本机制
深入理解Kafka副本机制一、Kafka集群Kafka 使用 Zookeeper 来维护集群成员 (brokers) 的信息。每个 broker 都有一个唯一标识 broker.id,用于标识自己在集群中的身份,可以在配置文件 server.properties 中进行配置,或者由程序自动生成。下面 ...
Kafka生产者详解
Kafka生产者详解一、生产者发送消息的过程首先介绍一下 Kafka 生产者发送消息的过程: Kafka 会将发送消息包装为 ProducerRecord 对象, ProducerRecord 对象包含了目标主题和要发送的内容,同时还可以指定键和分区。在发送 ProducerRecord 对象前, ...
Flume 简介及基本使用
Flume 简介及基本使用一、Flume简介Apache Flume 是一个分布式,高可用的数据收集系统。它可以从不同的数据源收集数据,经过聚合后发送到存储系统中,通常用于日志数据的收集。Flume 分为 NG 和 OG (1.0 之前) 两个版本,NG 在 OG 的基础上进行了完全的重构,是目前使 ...
Hive CLI和Beeline命令行的基本使用
Hive CLI和Beeline命令行的基本使用一、Hive CLI1.1 Help使用 hive -H 或者 hive --help 命令可以查看所有命令的帮助,显示如下: usage: hive -d,--define <key=value> Variable su ...