Hbase系统架构及数据结构

发表于 2019-09-11 分类于大数据， Hbase
本文字数： 3.8k 阅读时长 ≈ 3 分钟

Hbase系统架构及数据结构一、基本概念一个典型的 Hbase Table 表如下： 1.1 Row Key (行键)Row Key 是用来检索记录的主键。想要访问 HBase Table 中的数据，只有以下三种方式：通过指定的 Row Key 进行访问；通过 Row Key 的 rang ...

阅读全文 »

Kafka消费者详解

发表于 2019-09-07 分类于大数据， Kafka
本文字数： 11k 阅读时长 ≈ 10 分钟

Kafka消费者详解一、消费者和消费者群组在 Kafka 中，消费者通常是消费者群组的一部分，多个消费者群组共同读取同一个主题时，彼此之间互不影响。Kafka 之所以要引入消费者群组这个概念是因为 Kafka 消费者经常会做一些高延迟的操作，比如把数据写到数据库或 HDFS ，或者进行耗时的计算，在 ...

阅读全文 »

集群同步脚本xsync

发表于 2019-09-05 分类于集群管理
本文字数： 469 阅读时长 ≈ 1 分钟

该脚本用于在所有主机上同步文件。在 /usr/local/bin目录下,创建文件xsync，向里面添加如下代码： #!/bin/bash#1 获取输入参数个数，如果没有参数，直接退出pcount=$#if((pcount==0)); thenecho no args;exit;fi#2 获取文件名称 ...

阅读全文 »

集群批量命令脚本xcall

发表于 2019-09-05 分类于集群管理
本文字数： 487 阅读时长 ≈ 1 分钟

该脚本用于在所有主机上同时执行相同的命令。在 /usr/local/bin目录下,创建文件xcall，向里面添加： #!/bin/shpcount=$#if((pcount==0));then echo no args...; exit;fifor((host=101; ...

阅读全文 »

Flume 整合 Kafka

发表于 2019-08-25 分类于大数据， Flume
本文字数： 1.7k 阅读时长 ≈ 2 分钟

Flume 整合 Kafka一、背景先说一下，为什么要使用 Flume + Kafka？以实时流处理项目为例，由于采集的数据量可能存在峰值和峰谷，假设是一个电商项目，那么峰值通常出现在秒杀时，这时如果直接将 Flume 聚合后的数据输入到 Storm 等分布式计算框架中，可能就会超过集群的处理能力 ...

阅读全文 »

深入理解Kafka副本机制

发表于 2019-08-21 分类于大数据， Kafka
本文字数： 4.9k 阅读时长 ≈ 4 分钟

深入理解Kafka副本机制一、Kafka集群Kafka 使用 Zookeeper 来维护集群成员 (brokers) 的信息。每个 broker 都有一个唯一标识 broker.id，用于标识自己在集群中的身份，可以在配置文件 server.properties 中进行配置，或者由程序自动生成。下面 ...

阅读全文 »

Kafka生产者详解

发表于 2019-08-17 分类于大数据， Kafka
本文字数： 8.6k 阅读时长 ≈ 8 分钟

Kafka生产者详解一、生产者发送消息的过程首先介绍一下 Kafka 生产者发送消息的过程： Kafka 会将发送消息包装为 ProducerRecord 对象， ProducerRecord 对象包含了目标主题和要发送的内容，同时还可以指定键和分区。在发送 ProducerRecord 对象前， ...

阅读全文 »

Kafka入门

发表于 2019-08-11 分类于大数据， Kafka
本文字数： 1.4k 阅读时长 ≈ 1 分钟

Kafka入门一、简介ApacheKafka 是一个分布式的流处理平台。它具有以下特点：支持消息的发布和订阅，类似于 RabbtMQ、ActiveMQ 等消息队列；支持数据实时处理；能保证消息的可靠性投递；支持消息的持久化存储，并通过多副本分布式的存储方案来保证消息的容错；高吞吐率，单 ...

阅读全文 »

Flume 简介及基本使用

发表于 2019-08-02 分类于大数据， Flume
本文字数： 6.8k 阅读时长 ≈ 6 分钟

Flume 简介及基本使用一、Flume简介Apache Flume 是一个分布式，高可用的数据收集系统。它可以从不同的数据源收集数据，经过聚合后发送到存储系统中，通常用于日志数据的收集。Flume 分为 NG 和 OG (1.0 之前) 两个版本，NG 在 OG 的基础上进行了完全的重构，是目前使 ...

阅读全文 »

Hive CLI和Beeline命令行的基本使用

发表于 2019-07-23 分类于大数据， HIVE
本文字数： 7.6k 阅读时长 ≈ 7 分钟

Hive CLI和Beeline命令行的基本使用一、Hive CLI1.1 Help使用 hive -H 或者 hive --help 命令可以查看所有命令的帮助，显示如下： usage: hive -d,--define <key=value> Variable su ...

阅读全文 »