Hive分区表和分桶表

发表于 2019-07-21 分类于大数据， HIVE
本文字数： 3.5k 阅读时长 ≈ 3 分钟

Hive分区表和分桶表一、分区表1.1 概念Hive 中的表对应为 HDFS 上的指定目录，在查询数据时候，默认会对全表进行扫描，这样时间和性能的消耗都非常大。分区为 HDFS 上表目录的子目录，数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件，则直接从该分区去查找，而不是 ...

阅读全文 »

Hive数据查询详解

发表于 2019-07-19 分类于大数据， HIVE
本文字数： 6k 阅读时长 ≈ 5 分钟

Hive数据查询详解一、数据准备为了演示查询操作，这里需要预先创建三张表，并加载测试数据。 1.1 员工表 -- 建表语句 CREATE TABLE emp( empno INT, -- 员工表编号 ename STRING, -- 员工姓名 job STRING, ...

阅读全文 »

Hive简介及核心概念

发表于 2019-07-16 分类于大数据， HIVE
本文字数： 5.4k 阅读时长 ≈ 5 分钟

Hive简介及核心概念一、简介Hive 是一个构建在 Hadoop 之上的数据仓库，它可以将结构化的数据文件映射成表，并提供类 SQL 查询功能，用于查询的 SQL 语句会被转化为 MapReduce 作业，然后提交到 Hadoop 上运行。特点：简单、容易上手 (提供了类似 sql 的查询语 ...

阅读全文 »

Hadoop集群时间同步

发表于 2019-07-04 分类于集群管理
本文字数： 1.5k 阅读时长 ≈ 1 分钟

Hadoop集群时间同步测试环境 IP 节点角色主机名 10.10.101.100 master hadoop100 10.10.101.101 node hadoop101 10.10.101.102 node hadoop102 设置master服务器时间（1）检查ntp ...

阅读全文 »

Python爬虫从零开始(六)

发表于 2019-06-26 分类于 Python
本文字数： 7.2k 阅读时长 ≈ 7 分钟

认识HTML什么是HTMLHTML 是用来描述网页的一种语言。 HTML 指的是超文本标记语言 (Hyper Text Markup Language) HTML 不是一种编程语言，而是一种标记语言 (markup language) 标记语言是一套标记标签 (markup tag) HTML 使 ...

阅读全文 »

Python爬虫从零开始(五)

发表于 2019-06-25 分类于 Python
本文字数： 7.3k 阅读时长 ≈ 7 分钟

Python 基础Python 输入输出读文件读写文件是最常见的IO操作。Python内置了读写文件的函数，用法和C是兼容的。要以读文件的模式打开一个文件对象，使用Python内置的open()函数，传入文件名和标示符： >>> f = open('/Users/michael/t ...

阅读全文 »

Python 爬虫从零开始(四)

发表于 2019-06-24 分类于 Python
本文字数： 15k 阅读时长 ≈ 14 分钟

Python 基础面向对象面向对象（Object Oriented）的英文缩写是OO，它是一种设计思想。我们经常听说的面向对象编程（Object Oriented Programming，即OOP）就是主要针对大型软件设计而提出的，它可以使软件设计更加灵活，并且能更好地进行代码复用。面向对象中的对 ...

阅读全文 »

Python 爬虫从零开始(三)

发表于 2019-06-23 分类于 Python
本文字数： 5.6k 阅读时长 ≈ 5 分钟

Python 基础函数定义函数在Python中定义函数需要使用def语句，接着是函数名、左括号、参数、右括号、冒号：，在缩进块中编写函数体，返回值使用return语句返回。例子：定义my_fun def my_fun(): print("Hello World!")my_f ...

阅读全文 »

Python 爬虫从零开始(二)

发表于 2019-06-22 分类于 Python
本文字数： 6.6k 阅读时长 ≈ 6 分钟

Python 基础基本数据类型Python 中的变量不需要声明。每个变量在使用前都必须赋值，变量赋值以后该变量才会被创建。在 Python 中，变量就是变量，它没有类型，我们所说的”类型”是变量所指的内存中对象的类型。 a = 100 #整型变量b = 100.1 #浮点型变量c ...

阅读全文 »

Python 爬虫从零开始(一)

发表于 2019-06-21 分类于 Python
本文字数： 1k 阅读时长 ≈ 1 分钟

（一） Python环境搭建第一步:Python安装包下载首先从 Python官网下载Python安装程序，注意32位和64位的区别，如果你的电脑是32位的请选择32位的安装包，如果你的电脑是64位的请选择64位的安装包。第二步:安装双击下载好的Python安装包。勾选添加Python到环境 ...

阅读全文 »