年度Python必备基础：这些NumPy的神操作你都掌握了吗？

CloudStrife0

2019-03-29

NumPy为何如此重要？实际上Python本身含有列表（list）和数组（array），但对于大数据来说，这些结构有很多不足。因列表的元素可以是任何对象，因此列表中所保存的是对象的指针。这样为了保存一个简单的[1,2,3]，都需要有3个指针和3个整数对象。

对于数值运算来说，这种结构显然比较浪费内存和CPU计算时间。至于array对象，它直接保存数值，和C语言的一维数组比较类似。但是由于它不支持多维，也没有各种运算函数，因此也不适合做数值运算。

NumPy（Numerical Python 的简称）的诞生弥补了这些不足，它提供了两种基本的对象：ndarray（N-dimensional array object）和 ufunc（universal function object）。ndarray是存储单一数据类型的多维数组，而ufunc则是能够对数组进行处理的函数。

NumPy的主要特点：

ndarray，快速，节省空间的多维数组，提供数组化的算术运算和高级的广播功能。
使用标准数学函数对整个数组的数据进行快速运算，而不需要编写循环。
读取/写入磁盘上的阵列数据和操作存储器映像文件的工具。
线性代数，随机数生成，以及傅里叶变换的能力。
集成C、C++、Fortran代码的工具。

在使用 NumPy 之前，需要先导入该模块：

import numpy as np

01 生成ndarray的几种方式

NumPy封装了一个新的数据类型ndarray，一个多维数组对象，该对象封装了许多常用的数学运算函数，方便我们进行数据处理以及数据分析，那么如何生成ndarray呢？这里我们介绍生成ndarray的几种方式，如从已有数据中创建；利用random创建；创建特殊多维数组；使用arange函数等。

1. 从已有数据中创建

直接对python的基础数据类型（如列表、元组等）进行转换来生成ndarray。

（1）将列表转换成ndarray

import numpy as np

list1 = [3.14,2.17,0,1,2]

nd1 = np.array(list1)

print(nd1)

print(type(nd1))

打印结果：

[ 3.14 2.17 0. 1. 2. ]

（2）嵌套列表可以转换成多维ndarray

import numpy as np

list2 = [[3.14,2.17,0,1,2],[1,2,3,4,5]]

nd2 = np.array(list2)

print(nd2)

print(type(nd2))

打印结果：

[[ 3.14 2.17 0. 1. 2. ]

[ 1. 2. 3. 4. 5. ]]

如果把（1）和（2）中的列表换成元组也同样适合。

2. 利用random模块生成ndarray

在深度学习中，我们经常需要对一些变量进行初始化，适当的初始化能提高模型的性能。通常我们用随机数生成模块random来生成，当然random模块又分为多种函数：

random生成0到1之间的随机数；
uniform生成均匀分布随机数；
randn生成标准正态的随机数；
normal生成正态分布；
shuffle随机打乱顺序；
seed设置随机数种子等。

下面我们列举几个简单示例。

import numpy as np

nd5 = np.random.random([3,3])

print(nd5)

print(type(nd5))

打印结果：

[[ 0.88900951 0.47818541 0.91813526]

[ 0.48329167 0.63730656 0.14301479]

[ 0.9843789 0.99257093 0.24003961]]

生成一个随机种子，对生成的随机数打乱。

import numpy as np

np.random.seed(123)

nd5_1 = np.random.randn(2,3)

print(nd5_1)

np.random.shuffle(nd5_1)

print("随机打乱后数据")

print(nd5_1)

print(type(nd5_1))

打印结果：

[[-1.0856306 0.99734545 0.2829785 ]

[-1.50629471 -0.57860025 1.65143654]]

随机打乱后数据为：

[[-1.50629471 -0.57860025 1.65143654]

[-1.0856306 0.99734545 0.2829785 ]]

3. 创建特定形状的多维数组

数据初始化时，有时需要生成一些特殊矩阵，如0或1的数组或矩阵，这时我们可以利用np.zeros、np.ones、np.diag来实现，下面我们通过几个示例来说明。

import numpy as np

#生成全是0的3x3矩阵

nd6 = np.zeros([3,3])

#生成全是1的3x3矩阵

nd7 = np.ones([3,3])

#生成3阶的单位矩阵

nd8= np.eye(3)

#生成3阶对角矩阵

print (np.diag([1, 2, 3]))

我们还可以把生成的数据保存到磁盘，然后从磁盘读取。

import numpy as np

nd9 = np.random.random([5,5])

np.savetxt(X=nd9,fname='./test2.txt')

nd10 = np.loadtxt('./test2.txt')

4. 利用arange函数

arange是numpy模块中的函数，其格式为：arange([start] stop[, step], dtype=None)。根据start与stop指定的范围，以及step设定的步长，生成一个 ndarray，其中start默认为0，步长step可为小数。

import numpy as np

print(np.arange(10))

print(np.arange(0,10))

print(np.arange(1, 4,0.5))

print(np.arange(9, -1, -1))

02 存取元素

上节我们介绍了生成ndarray的几种方法，数据生成后，如何读取我们需要的数据？这节我们介绍几种读取数据的方法。

import numpy as np

np.random.seed(2018)

nd11 = np.random.random([10])

#获取指定位置的数据，获取第4个元素

nd11[3]

#截取一段数据

nd11[3:6]

#截取固定间隔数据

nd11[1:6:2]

#倒序取数

nd11[::-2]

#截取一个多维数组的一个区域内数据

nd12=np.arange(25).reshape([5,5])

nd12[1:3,1:3]

#截取一个多维数组中，数值在一个值域之内的数据

nd12[(nd12>3)&(nd12<10)]

#截取多维数组中，指定的行,如读取第2,3行