Python 爬虫从零开始(二)

Python 基础

基本数据类型

Python 中的变量不需要声明。每个变量在使用前都必须赋值,变量赋值以后该变量才会被创建。
在 Python 中,变量就是变量,它没有类型,我们所说的”类型”是变量所指的内存中对象的类型。

1
2
3
a = 100       #整型变量
b = 100.1 #浮点型变量
c = "elichen" #字符型

Python允许多个变量同时赋值例如

1
a = b = c = 1

你也可以为多个对象指定多个变量

1
a, b, c = 1, 2, "elichen"

标准数据类型

Python3 中有六个标准数据类型:

  • Number (数字)

  • String (字符串)

  • List (列表)

  • Tuple (元组)

  • Set (集合)

  • Dictionary(字典)

    Python3 的六个标准数据类型中:

  • 不可变数据(3 个):Number(数字)、String(字符串)、Tuple(元组);

  • 可变数据(3 个):List(列表)、Dictionary(字典)、Set(集合)。

1、Number(数字)

Python3 支持 int、float、bool、complex(复数)

关于布尔类型:

Python3中,把True和False定义成关键字,他们的值是1和0,它们可以和数字相加。

在Python 3里,只有一种整数类型 int,表示为长整型,没有 python2 中的 Long。

像大多数语言一样,数值类型的赋值和计算都是很直观的。

内置的 type() 函数可以用来查询变量所指的对象类型。

此外还可以用 isinstance 来判断:

1
2
3
a = 1
isinstance(a, int)
# 结果为True

isinstance 和 type 的区别在于:

  • type()不会认为子类是一种父类类型。

  • isinstance()会认为子类是一种父类类型。

当你指定一个值时,Number 对象就会被创建:

1
2
var1 = 1
var2 = 10

你也可以使用del语句删除一些对象引用。

del语句的语法是:

1
del var1[,var2[,var3[....,varN]]]

您可以通过使用del语句删除单个或多个对象。例如:

1
2
del var
del var_a, var_b

数值运算

1
2
3
4
5
6
7
8
9
10
11
12
13
14
>>>5 + 4  # 加法
9
>>> 4.3 - 2 # 减法
2.3
>>> 3 * 7 # 乘法
21
>>> 2 / 4 # 除法,得到一个浮点数
0.5
>>> 2 // 4 # 除法,得到一个整数
0
>>> 17 % 3 # 取余
2
>>> 2 ** 5 # 乘方
32

2、String(字符串)

Python中的字符串用单引号(‘)或双引号(“)括起来,同时使用反斜杠()转义特殊字符。

字符串的截取的语法格式如下:

变量[头下标:尾下标]

加号 + 是字符串的连接符, 星号 * 表示复制当前字符串,紧跟的数字为复制的次数。实例如下:

1
2
3
4
5
6
7
8
9
str = 'Elichen'

print (str) # 输出字符串
print (str[0:-1]) # 输出第一个到倒数第二个的所有字符
print (str[0]) # 输出字符串第一个字符
print (str[2:5]) # 输出从第三个开始到第五个的字符
print (str[2:]) # 输出从第三个开始的后的所有字符
print (str * 2) # 输出字符串两次
print (str + "TEST") # 连接字符串

执行以上程序会输出如下结果:

1
2
3
4
5
6
7
Elichen
Eliche
E
ich
ichen
ElichenElichen
ElichenTEST

Python 使用反斜杠()转义特殊字符,如果你不想让反斜杠发生转义,可以在字符串前面添加一个 r,表示原始字符串:

1
2
3
4
5
6
>>> print('Ru\noob')
Ru
oob
>>> print(r'Ru\noob')
Ru\noob
>>>

3、List(列表)

List(列表) 是 Python 中使用最频繁的数据类型。

列表可以完成大多数集合类的数据结构实现。列表中元素的类型可以不相同,它支持数字,字符串甚至可以包含列表(所谓嵌套)。

列表是写在方括号 [] 之间、用逗号分隔开的元素列表。

和字符串一样,列表同样可以被索引和截取,列表被截取后返回一个包含所需元素的新列表。

列表截取的语法格式如下:

变量[头下标:尾下标]

加号 + 是列表连接运算符,星号 * 是重复操作。如下实例:

1
2
3
4
5
6
7
8
9
list = ['abcd', 786, 2.23, 'elichen', 70.2]
tinylist = [123, 'elichen']

print(list) # 输出完整列表
print(list[0]) # 输出列表第一个元素
print(list[1:3]) # 从第二个开始输出到第三个元素
print(list[2:]) # 输出从第三个元素开始的所有元素
print(tinylist * 2) # 输出两次列表
print(list + tinylist) # 连接列表

以上实例输出结果:

1
2
3
4
5
6
['abcd', 786, 2.23, 'elichen', 70.2]
abcd
[786, 2.23]
[2.23, 'elichen', 70.2]
[123, 'elichen', 123, 'elichen']
['abcd', 786, 2.23, 'elichen', 70.2, 123, 'elichen']

与Python字符串不一样的是,列表中的元素是可以改变的:

1
2
3
4
5
6
7
8
>>>a = [1, 2, 3, 4, 5, 6]
>>> a[0] = 9
>>> a[2:5] = [13, 14, 15]
>>> a
[9, 2, 13, 14, 15, 6]
>>> a[2:5] = [] # 将对应的元素值设置为 []
>>> a
[9, 2, 6]
  1. List写在方括号之间,元素用逗号隔开。
  2. 和字符串一样,list可以被索引和切片。
  3. List可以使用+操作符进行拼接。
  4. List中的元素是可以改变的。

Python 列表截取可以接收第三个参数,参数作用是截取的步长,以下实例在索引 1 到索引 4 的位置并设置为步长为 2(间隔一个位置)来截取字符串:

1
2
3
list1 = ['e', 'l', 'i', 'c', 'h', 'e', 'n']
print(list1[1:4:2])
# 结果为 ['l', 'c']

4、Tuple(元组)

语法:(,,,)。使用()标识,元素之间用逗号分隔。

元组(tuple)与列表类似,不同之处在于元组的元素不能修改。

元组中的元素类型也可以不相同;

1
2
3
4
5
6
7
8
9
tuple = ('abcd', 786, 2.23, 'elichen', 70.2)
tinytuple = (123, 'elichen')

print(tuple) # 输出完整元组
print(tuple[0]) # 输出元组的第一个元素
print(tuple[1:3]) # 输出从第二个元素开始到第三个元素
print(tuple[2:]) # 输出从第三个元素开始的所有元素
print(tinytuple * 2) # 输出两次元组
print(tuple + tinytuple) # 连接元组

以上实例输出结果:

1
2
3
4
5
6
('abcd', 786, 2.23, 'elichen', 70.2)
abcd
(786, 2.23)
(2.23, 'elichen', 70.2)
(123, 'elichen', 123, 'elichen')
('abcd', 786, 2.23, 'elichen', 70.2, 123, 'elichen')

虽然tuple的元素不可改变,但它可以包含可变的对象,比如list列表。

构造包含 0 个或 1 个元素的元组比较特殊,所以有一些额外的语法规则:

1
2
tup1 = ()    # 空元组
tup2 = (20,) # 一个元素,需要在元素后添加逗号

string、list 和 tuple 都属于 sequence(序列)。

注意:

  • 1、与字符串一样,元组的元素不能修改。
  • 2、元组也可以被索引和切片,方法一样。
  • 3、注意构造包含 0 或 1 个元素的元组的特殊语法规则。
  • 4、元组也可以使用+操作符进行拼接。

5、Set(集合)

集合(set)是一个无序不重复元素的序列。创建一个空集合必须用 set() 而不是 { },因为 { } 是用来创建一个空字典。

创建格式:

1
2
3
parame = {value01,value02,...}
或者
set(value)

实例

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
student = {'Tom', 'Jim', 'Mary', 'Tom', 'Jack', 'Rose'}

print(student) # 输出集合,重复的元素被自动去掉

# 成员测试
if 'Rose' in student :
print('Rose 在集合中')
else :
print('Rose 不在集合中')

# set可以进行集合运算
a = set('abracadabra')
b = set('alacazam')

print(a)
print(a - b) # a 和 b 的差集
print(a | b) # a 和 b 的并集
print(a & b) # a 和 b 的交集
print(a ^ b) # a 和 b 中不同时存在的元素

以上实例输出结果:

1
2
3
4
5
6
7
{'Mary', 'Jim', 'Rose', 'Jack', 'Tom'}
Rose 在集合中
{'b', 'a', 'c', 'r', 'd'}
{'b', 'd', 'r'}
{'l', 'r', 'a', 'c', 'z', 'm', 'b', 'd'}
{'a', 'c'}
{'l', 'r', 'z', 'm', 'b', 'd'}

6、Dictionary(字典)

字典是一种映射类型,字典用{ }标识,它是一个无序的键(key) : 值(value)对集合。

字典(dictionary)是Python中另一个非常有用的内置数据类型,键(key)必须使用不可变类型,键(key)必须是唯一的。

1
2
3
4
5
6
7
8
9
10
11
12
dict = {}
dict['one'] = "1"
dict[2] = "2"

tinydict = {'name': 'elichen','code':1, 'site': 'www.elichen.club'}


print (dict['one']) # 输出键为 'one' 的值
print (dict[2]) # 输出键为 2 的值
print (tinydict) # 输出完整的字典
print (tinydict.keys()) # 输出所有键
print (tinydict.values()) # 输出所有值

以上实例输出结果:

1
2
3
4
5
1
2
{'name': 'elichen', 'code': 1, 'site': 'www.elichen.club'}
dict_keys(['name', 'code', 'site'])
dict_values(['elichen', 1, 'www.elichen.club'])

注意:

  • 1、字典是一种映射类型,它的元素是键值对。
  • 2、字典的关键字必须为不可变类型,且不能重复。
  • 3、创建空字典使用 { }。

Python数据类型转换

有时候,我们需要对数据内置的类型进行转换,数据类型的转换,你只需要将数据类型作为函数名即可。

以下几个内置的函数可以执行数据类型之间的转换。这些函数返回一个新的对象,表示转换的值。

函数 描述
int(x [,base]) 将x转换为一个整数
float(x) 将x转换到一个浮点数
complex(real [,imag]) 创建一个复数
str(x) 将对象 x 转换为字符串
repr(x) 将对象 x 转换为表达式字符串
eval(str) 用来计算在字符串中的有效Python表达式,并返回一个对象
tuple(s) 将序列 s 转换为一个元组
list(s) 将序列 s 转换为一个列表
set(s) 转换为可变集合
dict(d) 创建一个字典。d 必须是一个序列 (key,value)元组。
frozenset(s) 转换为不可变集合
chr(x) 将一个整数转换为一个字符
ord(x) 将一个字符转换为它的整数值
hex(x) 将一个整数转换为一个十六进制字符串
oct(x) 将一个整数转换为一个八进制字符串