Hive分区表和分桶表一、分区表1.1 概念Hive 中的表对应为 HDFS 上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大。 分区为 HDFS 上表目录的子目录,数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件,则直接从该分区去查找,而不是 ...
Hive数据查询详解
Hive数据查询详解一、数据准备为了演示查询操作,这里需要预先创建三张表,并加载测试数据。 1.1 员工表 -- 建表语句 CREATE TABLE emp( empno INT, -- 员工表编号 ename STRING, -- 员工姓名 job STRING, ...
Hive简介及核心概念
Hive简介及核心概念一、简介Hive 是一个构建在 Hadoop 之上的数据仓库,它可以将结构化的数据文件映射成表,并提供类 SQL 查询功能,用于查询的 SQL 语句会被转化为 MapReduce 作业,然后提交到 Hadoop 上运行。 特点: 简单、容易上手 (提供了类似 sql 的查询语 ...
Hadoop集群时间同步
Hadoop集群时间同步测试环境 IP 节点角色 主机名 10.10.101.100 master hadoop100 10.10.101.101 node hadoop101 10.10.101.102 node hadoop102 设置master服务器时间(1)检查ntp ...
Python爬虫从零开始(六)
认识HTML什么是HTMLHTML 是用来描述网页的一种语言。 HTML 指的是超文本标记语言 (Hyper Text Markup Language) HTML 不是一种编程语言,而是一种标记语言 (markup language) 标记语言是一套标记标签 (markup tag) HTML 使 ...
Python爬虫从零开始(五)
Python 基础Python 输入输出读文件读写文件是最常见的IO操作。Python内置了读写文件的函数,用法和C是兼容的。要以读文件的模式打开一个文件对象,使用Python内置的open()函数,传入文件名和标示符: >>> f = open('/Users/michael/t ...
Python 爬虫从零开始(四)
Python 基础面向对象面向对象(Object Oriented)的英文缩写是OO,它是一种设计思想。我们经常听说的面向对象编程(Object Oriented Programming,即OOP)就是主要针对大型软件设计而提出的,它可以使软件设计更加灵活,并且能更好地进行代码复用。 面向对象中的对 ...
Python 爬虫从零开始(三)
Python 基础函数定义函数在Python中定义函数需要使用def语句,接着是函数名、左括号、参数、右括号、冒号:,在缩进块中编写函数体,返回值使用return语句返回。例子:定义my_fun def my_fun(): print("Hello World!")my_f ...
Python 爬虫从零开始(二)
Python 基础基本数据类型Python 中的变量不需要声明。每个变量在使用前都必须赋值,变量赋值以后该变量才会被创建。在 Python 中,变量就是变量,它没有类型,我们所说的”类型”是变量所指的内存中对象的类型。 a = 100 #整型变量b = 100.1 #浮点型变量c ...
Python 爬虫从零开始(一)
(一) Python环境搭建第一步:Python安装包下载首先从 Python官网 下载Python安装程序,注意32位和64位的区别,如果你的电脑是32位的请选择32位的安装包,如果你的电脑是64位的请选择64位的安装包。 第二步:安装双击下载好的Python安装包。 勾选添加Python到环境 ...