Eli'blog

  • 首页

  • 关于

  • 标签

  • 归档

  • 搜索

Spark部署模式与作业提交

发表于 2019-11-15 分类于 大数据 , Spark
本文字数: 5.5k 阅读时长 ≈ 5 分钟

Spark部署模式与作业提交一、作业提交1.1 spark-submitSpark 所有模式均使用 spark-submit 命令提交作业,其格式如下: ./bin/spark-submit \ --class <main-class> \ # 应用程序主入口类 -- ...

阅读全文 »

JVM简介

发表于 2019-11-09 分类于 java , JVM
本文字数: 5.7k 阅读时长 ≈ 5 分钟

JVM简介虚拟机简介所谓虚拟机(Virtual Machine),就是一台虚拟的计算机。是一个软件,用来执行一系列虚拟计算机指令。大体上虚拟机可以分为系统虚拟机和程序虚拟机。 像Visual Box,VMware就属于系统虚拟机,他们是对物理机的仿真,提供一个可运行完整操作系统的软件平台。 程序虚拟 ...

阅读全文 »

SparkSQL常用聚合函数

发表于 2019-11-07 分类于 大数据 , Spark
本文字数: 9k 阅读时长 ≈ 8 分钟

聚合函数Aggregations一、简单聚合1.1 数据准备{"EMPNO": 7369,"ENAME": "SMITH","JOB": "CLERK","MGR": 7902,"HIREDATE": "1980-12-17 00:00:00","SAL": 800.00,"COMM": ...

阅读全文 »

DataFrame和Dataset简介

发表于 2019-10-21 分类于 大数据 , Spark
本文字数: 3.7k 阅读时长 ≈ 3 分钟

DataFrame和Dataset简介一、Spark SQL简介Spark SQL 是 Spark 中的一个子模块,主要用于操作结构化数据。它具有以下特点: 能够将 SQL 查询与 Spark 程序无缝混合,允许您使用 SQL 或 DataFrame API 对结构化数据进行查询; 支持多种开发语 ...

阅读全文 »

弹性式数据集RDD

发表于 2019-10-18 分类于 大数据 , Spark
本文字数: 5.2k 阅读时长 ≈ 5 分钟

弹性式数据集RDD一、RDD简介RDD 全称为 Resilient Distributed Datasets,是 Spark 最基本的数据抽象,它是只读的、分区记录的集合,支持并行操作,可以由外部数据集或其他 RDD 转换而来,它具有以下特性: 一个 RDD 由一个或者多个分区(Partition ...

阅读全文 »

Spark简介

发表于 2019-10-12 分类于 大数据 , Spark
本文字数: 1.9k 阅读时长 ≈ 2 分钟

Spark简介一、简介Spark 于 2009 年诞生于加州大学伯克利分校 AMPLab,2013 年被捐赠给 Apache 软件基金会,2014 年 2 月成为 Apache 的顶级项目。相对于 MapReduce 的批处理计算,Spark 可以带来上百倍的性能提升,因此它成为继 MapReduc ...

阅读全文 »

Sqoop基本使用

发表于 2019-10-02 分类于 大数据 , Sqoop
本文字数: 6.8k 阅读时长 ≈ 6 分钟

Sqoop基本使用一、Sqoop 基本命令1. 查看所有命令# sqoop help 2. 查看某条命令的具体使用方法# sqoop help 命令名 二、Sqoop 与 MySQL1. 查询MySQL所有数据库通常用于 Sqoop 与 MySQL 连通测试: sqoop list-dat ...

阅读全文 »

Hbase进阶

发表于 2019-09-28 分类于 大数据 , Hbase
本文字数: 1.8k 阅读时长 ≈ 2 分钟

MemStore FlushMemStore 刷写时机: 当某个 memstroe 的大小达到了 hbase.hregion.memstore.flush.size(默认值 128M),其所在 region 的所有 memstore 都会刷写。 当 memstore 的大小达到了 hbase.hr ...

阅读全文 »

HBase Java API 的基本使用

发表于 2019-09-24 分类于 大数据 , Hbase
本文字数: 23k 阅读时长 ≈ 21 分钟

HBase Java API 的基本使用一、简述截至到目前 ,HBase 有两个主要的版本,分别是 1.x 和 2.x ,两个版本的 Java API 有所不同,1.x 中某些方法在 2.x 中被标识为 @deprecated 过时。 同时你使用的客户端的版本必须与服务端版本保持一致,如果用 2.x ...

阅读全文 »

Hbase 常用 Shell 命令

发表于 2019-09-17 分类于 大数据 , Hbase
本文字数: 3.5k 阅读时长 ≈ 3 分钟

Hbase 常用 Shell 命令一、基本命令打开 Hbase Shell: # hbase shell 1.1 获取帮助# 获取帮助help# 获取命令的详细信息help 'status' 1.2 查看服务器状态status 1.3 查看版本信息version 二、关于表的操作2.1 查看 ...

阅读全文 »
123…6
Eli

Eli

52 日志
18 分类
18 标签
E-Mail Resume
0%
© 2018 – 2020 Eli | 296k | 4:29
由 Hexo 强力驱动
|
主题 – NexT.Gemini