标签归档:Python

Python Matplotlib 绘图使用指南 (附代码)

雷锋网按:本文为雷锋字幕组编译的技术博客,原标题 Matplotlib Plotting Guide, 作者为 Prince Grover。

翻译 | 李振   于志鹏    整理 |  凡江


大多数人不会花大量时间去学 matplotlib 库,仍然可以实现绘图需求,因为已经有人在 stackoverflow、github 等开源平台上提供了绝大多数画图问题的解决方案。我们通常会使用 google 来完成绘图需求。至少我是这样。

那学 matplotlib 库有什么用?答案是:可以节约搜索时间。掌握 matplotlib 的速查表并了解其基本接口,根据个性需求从众多资源中编辑我们的绘图,从长期来看会节约很多的时间。

大部分内容取自以下 2 个链接,建议也去阅读一下。

https://realpython.com/python-matplotlib-guide/#why-can-matplotlib-be-confusing

https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Python_Matplotlib_Cheat_Sheet.pdf

matplotlib 是一个基于 Python 的 2D 绘图库,其可以在跨平台的在各种硬拷贝格式和交互式环境中绘制出高图形。

  • 一个有趣的现象。为什么引用库总采用 import matplotlib.pyplot as plt 的方式呢?

    因为使用例如 pylab import * 或者 %pylab 是一个非常不好的方式,matplotlib 官方不建议这样使用,具体原因如下:

由于历史原因,from pylab import * 仍然存在,但是强烈建议不要这样使用。这样做会遮蔽 Python 的内置函数进而占用命名空间,导致难以追踪的 bugs。想要实现零输入获得 IPython 集成,推荐使用 %matplotlib 命令。来源https://matplotlib.org/users/shell.html#using-matplotlib-in-a-python-shell

使用 matplotlib 绘制不同类型的图像是很容易的,有很多文档和教程。最重要的是,了解最佳的绘图方式。如何使用 axes,subplots 等。这篇文章主要针对这些问题。

1.内联绘图和 % matplotlib 

%matplotlib 命令可以在当前的 Notebook 中启用绘图。这个命令提供一个可选参数,指定使用哪个 matplotlib 后端。绝大多数情况下,Notebook 中都是使用 inline 后台,它可以在 Notebook 中嵌入绘图。另一个选项是 qt 后台,它在侧窗口打中打开 Matplotlib 交互 UI 。

Matlibplot 提供了多种绘图 UI ,可进行如下分类 :

  • 弹出窗口和交互界面: %matplotlib qt 和 %matplot tk

  • 非交互式内联绘图: %matplotlib inline

  • 交互式内联绘图: %matplotlib notebook-->别用这个,它会让开关变得困难。

2.理解 matplotlib 对象结构

pyplot 是一个 matplotlib 面向对象的函数接口。

plt.gca()

它返回当前 plot() 关联的轴

如果不使用 plt.close(),则会显示出空的图形。因为在开始时使用了 inline 命令。

axis_id 仍然是相同的,但是当我们移动到另一个 Notebook 块时,plt.gca() 会发生变化。

Setter 和 Getter

Getter 和 Setter 方法用于捕获当前或任意 axies 以及对其进行修改。我们可能需要修改标题、颜色、图列、字体等。有两种方法:

1. 使用 fig.axes[i] 指定要抓取的 axes,使用 setter 的 getter 对 axies 对象进行调用。在上面的例子中,只有一个 axes,所以我们调用 axes[0]。

2. 我们可以直接使用 plt.bla() 调用当前 axis(其中,bla 可以是 title(),legend(),xlabel()等)。这是 matlibplot 面向对象的一种函数。这个函数让修改当前的 axes 变得容易。比 1 的方法更常用。

当我们使用 axes[i] 时,我们可以调用任何之前的代码块中的任何 axes 对象,但是调用 plt.bla(),会在每个代码块中创建新的 axes 对象,并只调用当前对象。因此,上面例子中,只在 plt.title() 被调用时,才创建新 plt 对象。

重要观察:我们通常在当前 axis 对象上调用 plt.bla(),这种语法使得每个代码块中的 axis 对象都是新创建的。但是通过调用 fig.axes[0],我们也可以从任何代码块中处理之前的 axes 对象。

这是 stateless(object oriented) 方法,并可以自定义,当图像变得复杂时,这样做很方便。

所以,我建议是使用 fig,ax = plt.subplots(_) 先解压 axes 和 figure,并给它们分配给一个新的变量。然后,可以对这些变量使用 Getter 和 Setter 方法进行绘图中的更改。此外,这使得我们能够在多个 axes 上做工作,而不是只在一个当前 axes 上。pyplot 使用 1 次创建子图,然后使用 OO 方法。

结论:从现在开始,我使用 plt.subpots() 来完成不同的绘图。(如果有人认为这个观点是错误的,请纠正我)

3.matplotlib 图像剖析

来自: https://matplotlib.org/faq/usage_faq.html

4.绘图的基本例子

如何作图的基本例子,涵盖面向对象绘图的各个方面。请仔细阅读。

总结上面的例子:

  • 我们创建 1 行和 2 列的图形。即,1 行和 2 列中的 2 个 axes 对象。

  • 我们分别自定义 ax1 和 ax2。可以看到,我们可以将 Y-ticks 移动到右边的第二图形中。

5.二维网格的绘制

subplot2grid

需要做什么?

观察下面的绘图格式。

思路是把上面的图形考虑成为 2×4 网格。然后将多个网格分配给单个图以容纳所需的图形。

重点:

  • 我们可以使用 subplot2grid 定制我们的绘图布局。

  • 我们可以用 plt.figure() 创建无 axes 对象的图形,然后手动添加 axes 对象。

  • 我们可以使用 fig.suptitle() 来设置整个图形的总标题。

6.颜色,颜色条,RGB 数组和颜色图谱

我们已经介绍了 ax.plot(),ax.scatter(),ax.bar() 和 ax.hist() 等基本图形操作,另一个更常用的函数是 ax.imshow(),它用来显示彩色图或图像/RGB 数组。


7.线条样式和线条宽度

改变线条宽度、颜色或风格。

8.基本的数据分布

EDA 过程中的必要操作。

9.二维数组的等高线图和颜色网格图

热像图(颜色网格图)和等高线图在很多情况下都有助于可视化 2D 数据。

10.图像的调整、修改边缘坐标和标度

最后调整细节,让绘图变得更好看。

11.标度的限制和自动调整

需要注意的事情:

  • 填充(padding)自动设置 X 轴或 Y 轴网格标度

  • 我们可以使用 xlim,ylim 设置 x,y 的刻度限制

12.技巧

13.轴线

14.结束

博客原址: https://www.kaggle.com/grroverpr/matplotlib-plotting-guide/notebook

雷锋网雷锋网

雷锋网

还在纠结 Python 的数据导入问题吗?有这张速查表就够啦

雷锋网 AI 科技评论按:这是 Karlijn Willems 发布于 Medium 的一篇关于 Python 中数据导入问题的博客。Karlijn Willems 是来自于 DataCamp 的数据科学研究员。她在本文中介绍一份 Python 中数据导入操作的速查表,雷锋网 AI 科技评论对原文进行了编译。

借助这个 Python 速查表,你将拥有一份便捷的数据导入参考指南。该速查表全面涵盖了平面文件(Flat files)、其它软件所定义的原生文件类型以及关系型数据库数据的导入方法。

在你对数据进行清理、可视化等操作之前,我们首先需要实现的事情是使用 Python 导入数据。而众所周知,针对不同的数据文件存在着许多不同的导入方法。

但是,你最经常使用的库可能就是 Pandas 和 Numpy:Pandas 库是最受数据科学家喜爱的软件库之一,他们经常使用 Pandas 对数据进行操作和分析,然后再使用 matplotlib 进行数据可视化。而 Numpy 则是 Python 中进行科学计算的一个基础库,并且 Pandas 也是构建于 Numpy 之上的。

在这份数据导入速查表中,你将看到一些 Numpy 和 Pandas 的函数,以及使用 Python 语言编写的函数,这些都将帮助你更快捷地将数据导入 Python。

这份教程将帮助你快速学习和掌握将数据导入 Python 中的基础操作,以便于你可以对数据开展后续的清理和可视化等操作。

速查表传送门

这份速查表将引导你学习掌握如何将数据导入实验环境的基础:你不仅会学到如何导入诸如文本文件这样的平面文件,也能看到如何读取那些来自于特定软件的文件(比如 Excel、Stata、SAS 和 MATLAB)和关系型数据库。最重要的是,你将获得更多关于如何寻求帮助的指示,如何浏览文件系统以及如何开始探索数据信息。

总而言之,这里有你所需要的所有知识,来帮助你开启基于 Python 的数据科学学习大门。

如果你还想获得更多的知识,那么现在可以免费来学习这门《Python 数据导入课程》或者尝试一下我们的使用 Python 玩转 Excel 教学

当然,别忘了我们为数据科学而制作的 Python 速查表,并且在我们的社区能获得更多类似的速查表!

备注:速查表传送门

Via Importing Data in Python Cheat Sheet,雷锋网编译

雷锋网

一文详解如何用 python 做中文分词

雷锋网按:本文作者王树义,原载于微信公众号玉树芝兰(nkwangshuyi),雷锋网经授权发布。

打算绘制中文词云图?那你得先学会如何做中文文本分词。跟着我们的教程,一步步用 Python 来动手实践吧。

  需求

在此前发布的文章《从零开始教你用 Python 做词云》一文中,我们介绍了英文文本的词云制作方法。大家玩儿得可还高兴?

文中提过,选择英文文本作为示例,是因为处理起来最简单。但是很快就有读者尝试用中文文本做词云了。按照前文的方法,你成功了吗?

估计是不成功的。因为这里面缺了一个重要的步骤。

观察你的英文文本。你会发现英文单词之间采用空格作为强制分隔符。

例如:

Yes Minister is a satirical British sitcom written by Sir Antony Jay and Jonathan Lynn that was first transmitted by BBC Television between 1980 and 1984, split over three seven-episode series.

但是,中文的文本就没有这种空格区隔了。为了做词云,我们首先需要知道中文文本里面都有哪些“词”。

你可能觉得这根本不是问题——我一眼就能看出词和词之间的边界!

对,你当然可以。你可以人工处理1句、100句,甚至是10000句话。但是如果给你100万句话呢?

这就是人工处理和电脑自动化处理的最显著区别——规模。

别那么急着放弃啊,你可以用电脑来帮忙。

你的问题应该是:如何用电脑把中文文本正确拆分为一个个的单词呢?

这种工作,专业术语叫做分词。

在介绍分词工具及其安装之前,请确认你已经阅读过《从零开始教你用 Python 做词云》一文,并且按照其中的步骤做了相关的准备工作,然后再继续依照本文的介绍一步步实践。

  分词

中文分词的工具有很多种。有的免费,有的收费。有的在你的笔记本电脑里就能安装使用,有的却需要联网做云计算。

今天给大家介绍的,是如何利用Python,在你的笔记本电脑上,免费做中文分词。

我们采用的工具,名称很有特点,叫做“ 结巴分词 ”,具体链接如下:

https://github.com/fxsjy/jieba

为什么叫这么奇怪的名字?

读完本文,你自己应该就能想明白了。

我们先来安装这款分词工具。回到你的“终端”或者“命令提示符”下。

进入你之前建立好的demo文件夹。

输入以下命令:

pip install jieba

好了,现在你电脑里的Python已经知道该如何给中文分词了。

  数据

在《从零开始教你用 Python 做词云》一文中,我们使用了英剧”Yes, minister“的维基百科介绍文本。这次我们又从维基百科上找到了这部英剧对应的中文页面。翻译名称叫做《是,大臣》。

将网页正文拷贝下来之后,存入文本文件 yes-minister-cn.txt,并且将这个文件移动到我们的工作目录 demo 下面。

好了,我们有了用于分析的中文文本数据了。

先别忙着编程序。正式输入代码之前,我们还需要做一件事情,就是下载一份中文字体文件 simsun.ttf。具体下载链接如下:

http://t.cn/RKuSeLl

下载后,将这个ttf字体文件也移动到demo目录下,跟文本文件放在一起。

  代码

在命令行下,执行:

jupyter notebook

浏览器会自动开启,并且显示如下界面。

这里还有上一次词云制作时咱们的劳动成果。此时目录下多了一个文本文件,是"Yes, Minister"的中文介绍信息。

打开这个文件,浏览一下内容。

我们确认中文文本内容已经正确存储。

回到Jupyter笔记本的主页面。点击New按钮,新建一个笔记本(Notebook)。在Notebooks里面,请选择Python 2选项。

系统会提示我们输入Notebook的名称。为了和上次的英文词云制作笔记本区别,就叫它wordcloud-cn好了。

我们在网页里唯一的代码文本框里,输入以下3条语句。输入后,按Shift+Enter键执行。

filename = "yes-minister-cn.txt"

with open(filename) as f:

mytext = f.read()

然后我们尝试显示mytext的内容。输入以下语句之后,还是得按Shift+Enter键执行。

print(mytext)

显示的结果如下图所示。

既然中文文本内容读取没有问题,我们就开始分词吧。输入以下两行语句:

import jieba
mytext = " ".join(jieba.cut(mytext))

系统会提示一些信息,那是结巴分词第一次启用的时候需要做的准备工作。忽略就可以了。

分词的结果如何?我们来看看。输入:

print(mytext)

你就可以看到下图所示的分词结果了。

单词之间已经不再紧紧相连,而是用空格做了区隔,就如同英文单词间的自然划分一样。

你是不是迫不及待要用分词后的中文文本作词云了?

可以,输入以下语句:

from wordcloud import WordCloud
wordcloud = WordCloud().generate(mytext)
%pylab inlineimport matplotlib.pyplot as plt
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off"

激动地期待着中文词云的出现?

可惜,你看到的词云是这个样子的。

你是不是非常愤怒,觉得这次又掉坑里了?

别着急,出现这样的结果,并不是分词或者词云绘制工具有问题,更不是因为咱们的教程步骤有误,只是因为字体缺失。词云绘制工具wordcloud默认使用的字体是英文的,不包含中文编码,所以才会方框一片。解决的办法,就是把你之前下载的simsun.ttf,作为指定输出字体。

输入以下语句:

from wordcloud import WordCloud
wordcloud = WordCloud(font_path="simsun.ttf").generate(mytext)
%pylab inlineimport matplotlib.pyplot as plt
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")

这次你看到的输出图形就变成了这个样子:

这样一来,我们就通过中文词云的制作过程,体会到了中文分词的必要性了。

这里给你留个思考题,对比一下此次生成的中文词云,和上次做出的英文词云:

这两个词云对应的文本都来自维基百科,描述的是同样一部剧,它们有什么异同?从这种对比中,你可以发现维基百科中英文介绍内容之间,有哪些有趣的规律?

  讨论

掌握了本方法后,你自己做出了一张什么样的中文词云图?除了做词云以外,你还知道中文分词的哪些其他应用场景?欢迎留言,分享给大家。我们共同交流讨论。

雷锋网相关阅读:

从零开始教你用 Python 做词云

详解基于朴素贝叶斯的情感分析及 Python 实现

雷锋网

从零开始教你用 Python 做词云

雷锋网按:本文作者王树义,原载于微信公众号玉树芝兰(nkwangshuyi),雷锋网经授权发布。

临渊羡鱼,不如退而结网。我们步步为营,从头开始帮助你用Python做出第一张词云图来。欢迎尝试哦!

  需求

在大数据时代,你经常可以在媒体或者网站上看到一些非常漂亮的信息图。

例如这个样子。

或是这个样子的。

看过之后你有什么感觉?想不想自己做一张出来?

如果你的答案是肯定的,我们就不要拖延了,今天就来一步步从零开始做个词云分析图。当然,做为基础的词云图,肯定比不上刚才那两张信息图酷炫。不过不要紧,好的开始是成功的一半嘛。食髓知味,后面你就可以自己升级技能,进入你开挂的成功之路。

网上教你做信息图的教程很多。许多都是利用了专用工具。这些工具好是好,便捷而强大。只是它们功能都太过专一,适用范围有限。今天我们要尝试的,是用通用的编程语言Python来做词云。

Python是一种时下很流行的编程语言。你不仅可以用它做数据分析和可视化,还能用来做网站、爬取数据、做数学题、写脚本替你偷懒……

知道豆瓣吗?它一开始就是用Python写的。

在目前的编程语言热度排序里,Python屈居第四(当然,很多人不同意,所以编程语言的排行榜有许多,你懂的)。但看问题要用发展眼光。随着数据科学的发展,Python有爆发的趋势。早点儿站上风口,很有益处。

如果你之前没有编程基础,没关系。从零开始,意味着我会教你如何安装Python运行环境,一步步完成词云图。希望你不要限于浏览,而是亲自动手尝试一番。到完成的那一步,你不仅可以做出第一张词云图,而且这还将是你的第一个有用的编程作品。

心动了?那咱们就开始吧。

  安装

首先,我们需要安装Python运行环境。

如果你用的是macOS,那么你的系统里面实际已经预装好了Python。

然而我们要使用到许多扩展包的功能。因此最好安装一个Python工具套装。只需要一次安装,以后大部分的功能就都已集成了。不必每次使用新功能,都去零敲碎打地安装新包了。

Python的套装有许多种,这里推荐给大家anaconda。因为经过我4年多的尝试与对比,感觉这款软件包的安装更为便捷,扩展包的涵盖范围与结构更合理。

首先下载anaconda套装,具体下载链接如下:

http://t.cn/RyWsyHV

下拉网页找到下载位置。根据你的操作系统类型选择合适的版本。

因为我的系统是macOS,所以网站直接给我推荐的就是macOS系统版本。但如果你用的是Windows或Linux,请切换到相应的标签页上面。

不管你用的是哪个操作系统,请注意右侧的两个按钮,分别对应Python 2.X和3.X版本。有人一定很纳闷,既然有新的版本,我凭什么用旧的?

不是这样的。到2020年之前,Python的两个版本会一直并存。Python的开发者确实希望大家升级切换到3.X版本。可惜目前3.X版本兼容的扩展包数量比2.X版本要少,尤其是涉及到数据科学类的软件包,就尤其明显。所以如果你是初学者,我建议你下载2.X(目前是2.7)版本,这样在以后的使用中,可能遇到的问题会少一些。等你运用熟练了,再迁移到3.X版本不迟。相信我,到那时你会很快适应新版本的。

下载后,执行安装文件就行了。

根据你的电脑运行速度不同,安装的时间长短不等。耐心点儿,只需要等这一次嘛。

安装完毕之后,请你安装一个“现代化”浏览器。如果你用的是macOS,那么系统自带的Safari就挺好。其他的选择包括Firefox和Google Chrome。

请安装上述浏览器之一,然后将其设置为系统默认的浏览器。

好了,下面请进入命令行模式。

在macOS和Linux下,你需要开启一个终端(terminal)。

如果是Windows,请打开“开始”-“附件”-“命令提示符”。

键入以下命令:

mkdir demo

cd demo

好了,你现在有一个专用的目录,叫做demo了。请到macOS的Finder或者Windows的“我的电脑”里面,找到这个目录并且打开它。

回到终端下面,macOS或者Linux用户请键入以下命令:

pip install wordcloud

macOS会提示你先安装XCode命令行工具,你按照默认设置一步步进行就可以了。但是请注意,务必在WiFi环境下安装。如果你用的是4G流量,那你可要破费一笔了。

如果你用的是Windows,那么为了使用这个词云包,就稍微麻烦一些,你需要到下载 wordcloud‑1.3.1‑cp27‑cp27m‑win32.whl 这个文件,并将它拖拽到你的demo目录里。具体下载链接如下:

http://t.cn/RJ6Emm4

在命令行下,先执行:

pip install wheel

然后,再执行:

pip install wordcloud‑1.3.1‑cp27‑cp27m‑win32.whl

好了,我们需要的全部Python运行环境终于装好了。

请务必按照上述步骤执行,确保每一步都已经顺利完成。否则一旦遗漏,后面运行程序会报错。

  数据

词云分析的对象,是文本。

理论上讲,文本可以是各种语言的。英文、中文、法文、阿拉伯文……

为了简便,我们这里以英文文本为例。你可以随意到网上找一篇英文文章作为分析对象。我特别喜欢英剧"Yes, minister",所以到维基百科上找到了这部剧的介绍词条。

我把其中的正文文字部分拷贝了下来,存储为一个文本文件,叫做yes-minister.txt。

把这个文件挪动到我们的工作目录demo里。

好了,文本数据已经准备好了。开始进入编程的魔幻世界吧!

  代码

在命令行下,执行:

jupyter notebook

浏览器会自动开启,并且显示如下界面。

这就是咱们刚才的劳动成果——安装好的运行环境了。我们还没有编写程序,目录下只有一个刚才生成的文本文件。

打开这个文件,浏览一下内容。

回到Jupyter笔记本的主页面。我们点击New按钮,新建一个笔记本(Notebook)。在Notebooks里面,请选择Python 2选项。

系统会提示我们输入Notebook的名称。程序代码文件的名称,你可以随便起。但是我建议你起一个有意义的名字,将来好方便查找。由于我们要尝试词云,就叫它wordcloud好了。

然后就出现了一个空白的笔记本,供我们使用了。我们在网页里唯一的代码文本框里,输入以下3条语句。请务必逐字根据示例代码输入,空格数量都不可以有差别。尤其注意第三行,用4个空格,或者1个Tab开始。输入后,按Shift+Enter键,就可以执行了。

filename = "yes-minister.txt"

with open(filename) as f:

 mytext = f.read()

没有任何结果啊。

对,因为我们这里没有任何输出动作,程序只是打开了你的yes-minister.txt文本文件,把里面的内容都读了出来,存储到了一个叫做mytext的变量里面。

然后我们尝试显示mytext的内容。输入以下语句之后,还是得按Shift+Enter键,系统才会实际执行该语句。

mytext

之后的步骤里,也千万不要忘了这一确认执行动作。

显示的结果如下图所示。

嗯,看来mytext变量里存储的文本就是我们从网上摘来的文字。到目前为止,一切正常。

然后我们呼唤(import)词云包,利用mytext中存储的文本内容来制造词云。

from wordcloud import WordCloud

wordcloud = WordCloud().generate(mytext)

这时程序可能会报警。别担心。警告(warning)不影响程序的正常运行。

此时词云分析已经完成了。你没看错,制作词云的核心步骤只需要这2行语句,而且第一条还只是从扩展包里找外援。但是程序并不会给我们显示任何东西。

说好了的词云呢?折腾了这么半天,却啥也没有,你蒙人吗?!

别激动。输入下面4行语句后,就是见证奇迹发生的时刻了。

%pylab inline

import matplotlib.pyplot as plt

plt.imshow(wordcloud, interpolation='bilinear')

plt.axis("off")

运行结果如图所示:

不用那么兴奋嘛。

你可以在词云图片上单机鼠标右键,用“图片另存为”功能导出。

通过这张词云图,我们可以看到不同单词和词组出现的频率高低差别。高频词的字体明显更大,而且颜色也很醒目。值得说明的是,最显眼的单词Hacker并不是指黑客,而是指这部剧的主角之一——哈克首相。

包含程序完整代码的ipynb文件,我也分享了出来,你可以从如下链接下载:

http://t.cn/RKQvFBM

希望你在尝试过程中一切顺利。对自己生成的词云图满意吗?如果你不满意,也不要紧,可以挖掘wordcloud软件包的其他高级功能。尝试一下,看自己能不能做出这样的词云图来?

  讨论

学完了本方法后,你做出了一张什么样的词云图?除了本文介绍的方法以外,你还知道哪些便捷地制作词云或其他信息图的方式?欢迎留言,分享给大家。我们共同交流讨论。

雷锋网相关阅读:

贷还是不贷:如何用 Python 和机器学习帮你决策?

详解基于朴素贝叶斯的情感分析及 Python 实现

雷锋网

2017,最受欢迎的 15 大 Python 库有哪些?

雷锋网按:本文作者为 ActiveWizards 的数据顾问 Igor Bobriakov,雷锋网林立宏与 Raey Raey Li 编译。

Igor Bobriakov

近年来,Python 在数据科学行业扮演着越来越重要的角色。因此,我根据近来的使用体验,在本文中列出了对数据科学家、工程师们最有用的那些库。

由于这些库都开源了,我们从Github上引入了提交数,贡献者数和其他指标,这可以作为库流行程度的参考指标。

核心库

1. NumPy (提交数: 15980, 贡献者数: 522)

当开始处理Python中的科学任务,Python的SciPy Stack肯定可以提供帮助,它是专门为Python中科学计算而设计的软件集合(不要混淆SciPy库,它是SciPy Stack的一部分,和SciPy Stack的社区)这样我们开始来看一下吧。然而,SciPy Stack相当庞大,其中有十几个库,我们把焦点放在核心包上(特别是最重要的)。

关于建立科学计算栈,最基本的包是Numpy(全称为Numerical Python)。它为Python中的n维数组和矩阵的操作提供了大量有用的功能。该库提供了NumPy数组类型的数学运算向量化,可以改善性能,从而加快执行速度。

2. SciPy (提交数: 17213, 贡献者数: 489)

SciPy是一个工程和科学软件库。雷锋网再次提醒,你需要理解SciPy Stack和SciPy库之间的区别。

SciPy包含线性代数,优化,集成和统计的模块。SciPy库的主要功能是建立在NumPy上,从而它的数组大量的使用了NumPy的。它通过其特定子模块提供有效的数值例程,并作为数字积分、优化和其他例程。SciPy的所有子模块中的功能都有详细的说明 ——又是一个SciPy非常有帮助的点。

3. Pandas (提交数: 15089, 贡献者数:762)

Pandas是一个Python包,旨在通过“标记”和“关系”数据进行工作,简单直观。Pandas是数据整理的完美工具。它设计用于快速简单的数据操作,聚合和可视化。

库中有两个主要的数据结构:

  • “系列”(Series),一维


  • “数据帧”(Data Frames),二维


例如,当您要从这两种类型的结构中接收到一个新的Dataframe时,通过传递一个Series,您将收到一个单独的行到DataFrame的DF:

 这里稍微列出了你可以用Pandas做的事情:

  • 轻松删除并添加数据帧(DataFrame)中的列

  • 将数据结构转换为数据帧(DataFrame)对象

  • 处理丢失的数据,表示为NaN

  • 功能强大的分组

Google趋势记录

trends.google.com

GitHub请求历史记录

datascience.com/trends 

可视化

4.Matplotlib (提交数: 21754, 贡献者数: 588) 

又一个SciPy Stack核心软件包以及 Python库,Matplotlib为轻松生成简单而强大的可视化而量身定制。它是一个顶尖的软件(在NumPy,SciPy和Pandas的帮助下),它使Python成为像MatLab或Mathematica这样的科学工具的竞争对手。

然而,这个库是低层级的,这意味着你需要编写更多的代码才能达到高级的可视化效果,而且通常会比使用更多的高级工具付出更多的努力,但总体上这些努力是值得的。

只要付出一点你就可以做任何可视化:

  • 线图

  • 散点图

  • 条形图和直方图

  • 饼状图;

  • 茎图

  • 轮廓图

  • 场图

  • 频谱图

还有使用Matplotlib创建标签,网格,图例和许多其他格式化实体的功能。基本上,一切都是可定制的。

该库由不同的平台支持,并使用不同的GUI套件来描述所得到的可视化。不同的IDE(如IPython)都支持Matplotlib的功能。

还有一些额外的库可以使可视化变得更加容易。

5. Seaborn (提交数: 1699, 贡献者数: 71)

Seaborn主要关注统计模型的可视化;这种可视化包括热图,这些热图(heat map)总结数据但仍描绘整体分布。Seaborn基于Matplotlib,并高度依赖于此。

 

 6. Bokeh (提交数: 15724, 贡献者数: 223)

另一个很不错的可视化库是Bokeh,它针对交互式可视化。与以前的库相比,它独立于Matplotlib。正如我们提到的,Bokeh的主要焦点是交互性,它通过现代浏览器以数据驱动文档(d3.js)的风格呈现。

7. Plotly (提交数: 2486, 贡献者数: 33)

最后,关于Plotly的话。它是一个基于Web用于构建可视化的工具箱,提供API给一些编程语言(Python在内)。在plot.ly网站上有一些强大的、上手即用的图形。为了使用Plotly,你将需要设置API密钥。图形将在服务器端处理,并发布到互联网,但有一种方法可以避免。

Google趋势记录

trends.google.com

GitHub请求历史记录

datascience.com/trends

机器学习

8. SciKit-Learn (提交数:21793, 贡献者数:842)

Scikits是Scikits Stack额外的软件包,专为像图像处理和机器学习辅助等特定功能而设计。对于机器学习辅助,scikit-learn是所有软件包里最突出的一个。它建立在SciPy之上,并大量利用它的数学运算。

scikit-learn给常见的机器学习算法公开了一个简洁、一致的接口,可简单地将机器学习带入生产系统中。该库中集成了有质量的代码和良好的文档、简单易用并且十分高效,是使用Python进行机器学习的实际行业标准。

深度学习—— Keras / TensorFlow / Theano

在深度学习方面,Python中最着名和最便的库之一是Keras,它可以在TensorFlow或Theano框架上运行。让我们来看一下它们的一些细节。 

9.Theano. (提交数:25870, 贡献者数:300) 

首先让我们谈谈Theano。

Theano是一个Python软件包,它定义了与NumPy类似的多维数组,以及数学运算和表达式。此库是被编译的,可实现在所有架构上的高效运行。最初由蒙特利尔大学机器学习组开发,它主要用于满足机器学习的需求。

值得注意的是,Theano紧密结合了NumPy在低层次上的运算 。另外,该库还优化了GPU和CPU的使用,使数据密集型的计算平台性能更佳。

效率和稳定性微调保证了即使在数值很小的情况下,仍有更精确的结果,例如,即使只给出x的最小值,log(1 + x)仍能计算出合理的结果。

10. TensorFlow. (提交数: 16785,贡献者数: 795)

TensorFlow来自Google的开发人员,它是数据流图计算的开源库,为机器学习不断打磨。它旨在满足谷歌对训练神经网络的高需求,并且是基于神经网络的机器学习系统DistBelief的继任者。然而,TensorFlow并不限制于谷歌的科学应用范围 – 它可以通用于多种多样的现实应用中。 

TensorFlow的关键特征是它的多层节点系统,可以在大型数据集上快速训练神经网络。这为谷歌的语音识别和图像对象识别提供了支持。

11. Keras. (提交数: 3519,贡献者数: 428)

最后我们来看看Keras。它是一个用Python编写的开源的库,用于在高层的接口上构建神经网络。它简单易懂,具有高级可扩展性。Keras使用Theano或TensorFlow作为后端,但微软现在正努力整合CNTK(微软的认知工具包)作为新的后端。

设计中的简约方法旨在通过建立紧凑型系统进行快速、简便的实验。

Keras真的容易上手,并在持续完善它的快速原型能力。它完全用Python编写,可被高度模块化和扩展。尽管它以易上手、简单和以高层次为导向,但是Keras足够有深度并且足够强大,去支持复杂的模型。

谷歌发展趋势历史

trends.google.com

GitHub请求历史记录

datascience.com/trends

自然语言处理

12. NLTK (提交数: 12449,贡献者数: 196)

这个库的名称“Natural Language Toolkit”,代表自然语言工具包,顾名思义,它用于符号学和统计学自然语言处理(NLP) 的常见任务。 NLTK旨在促进NLP及相关领域(语言学,认知科学人工智能等)的教学和研究,目前受到重点关注。

NLTK的功能允许很多操作,例如文本标记,分类和标记,实体名称识别,建立语料库,可以显示语言内部和各句子间的依赖性、词根、语义推理等。所有的构建模块都可以为不同的任务构建复杂的研究系统,例如情绪分析,自动总结。

13. Gensim (提交数: 2878,贡献者数: 179)

它是一个用于Python的开源库,为有向量空间模型和主题模型的工作提供了使用工具。这个库是为了高效处理大量文本而设计的,所以不仅可以进行内存处理,还可以通过广泛使用NumPy数据结构和SciPy操作来获得更高的效率。Gensim高效也易于使用。

Gensim旨在与原始和非结构化的数字文本一起使用。 它实现了诸如hierarchical Dirichlet processes(HDP),潜在语义分析(LSA)和潜在Dirichlet分配(LDA)之类的算法,以及tf-idf,随机预测,word2vec和document2vec,便于检查一组文档中有重复模式的文本 (通常称为语料库)。所有的算法均是无监督的,意味着不需要任何参数,唯一的输入只有语料库。 

谷歌发展趋势历史

trends.google.com

GitHub请求历史记录

datascience.com/trends

数据挖掘,统计学

14. Scrapy (提交数: 6325,贡献者数: 243)

Scrapy库是用于从网络结构化检索数据(如联系人信息或URL),可以用来设计crawling程序(也称为蜘蛛bots)。

它是开源的,使用用Python编写的。最开始只是如它的名字暗示的一样,只用来做scraping,但是它现在已经在完整的框架中发展,能够从API采集数据并作为通用的crawlers了。

该库在界面设计中标榜着“不要重复自己”  它推荐用户们编写泛化得到、可被重复使用的通用代码,从而构建和扩展大型的crawlers。

Scrapy的架构围绕着Spider class构建,这其中包含了crawler追从的一套指令。

 15. Statsmodels (提交数: 8960,贡献者数: 119) 

你可能从名字就猜出大概了,statsmodels使用户能够通过使用各种统计模型的估算方法进行数据挖掘,并执行统计判断和分析。

 许多有用的特征是可被描述的,并通过使用线性回归模型,广义线性模型,离散选择模型,鲁棒线性模型,时间序列分析模型,各种估计方法得出统计结果。

这个库还提供了广泛的标定功能,专门用于大数据统计中的性能优化工作。 

总结

许多数据科学家和工程师认为这些库是顶级的,并值得关注,或者需要或多或少了解它们。 以下是每个库在Github上的详细统计资料:

当然,这不是完全详尽的列表,还有许多其他的库和框架也是值得关注。一个很好的例子是SciKit的不同软件包各自专注一个特定的领域,如SciKit-Image是用于处理图像的。

via medium

雷锋网

NBA 史上实力最弱的球队是哪个?用 Python + SQL 我们找到了答案

雷锋网按:此前我们专门发布了一篇文章分析NBA史上实力最强的球队,详见《用 Python 分析过去四年的比赛数据,实力最强的 NBA 球队原来是它》,这次我们来看看最弱的是哪个。原文作者 Kaiser,景略集智总经理,原载于集智网专栏,雷锋网已获授权。

文中部分代码会有“代码补完”字样的注释,是留给读者自己补完并在线评测的,相当于小作业,这里就请大家自行脑补吧。(编者注:每个需要补充的部分都给出了提示信息)

  01. elo值

elo值就像现在竞技网游里的天梯系统,队伍在每场比赛后会根据表现有所调整,胜增败减,小胜小增,大胜大增。elo值反映了一支队伍在常规赛中的胜场期望,1800的对应期望是获胜67场以上,就是王朝级强队了。具体的天梯分段分布如下:

ELO值 匹配战绩 对应队伍描述
1800 67-15 史诗级别
1700 60-22 总冠军争夺者
1600 51-31 季后赛水平
1500 41-41 平均水平
1400 31-51 乐透水平
1300 22-60 无言以对
1200 15-67 糟糕透顶

历史上最高纪录是96年总决赛阶段的公牛,曾一度突破了1850分。

知名数据分析网站538(fivethirtyeight.com)提供了NBA历史赛程的 elo 值记录(至2015赛季),有六万余条数据。这个数据量不能算很大,但是在本地用Excel直接打开操作,估计体验还是挺痛苦的,这里就介绍一下如何用 Python+SQL 来处理,或许会对广大劳形于 Excel 之间的朋友们有所帮助。

  02. 元组

元组(tuple)是另一种Python中常用的数据类型,他跟列表非常相似,都可以包含若干元素,并且元素的调用都是通过方括号[]+索引的形式。

sample_list = [0,1,2,3]
sample_tuple = (0,1,2,3)

# 列表的第1个元素
sample_list[0]

# 元组的第2个元素
sample_tuple[1]

主要区别在于:

● 元组用括号()定义,列表用方括号[]定义

● 元组不可更改

● 即使只有一个元素,也需要有逗号,如(item1, )。如果缺了这个逗号,得到的仍是元素本身,而不是元组。

元组只能在定义时赋值,如果强行更改会得到解释器的错误提示。

TypeError:
'tuple' object does not support item assignment

有的函数返回值并非一个数值或字符,而是具有多重输出,这时就以元组格式存在。比如下例返回的是两个输入参数的和与乘积,可以点击运行查看,两个输出在()中。

def sum_times(x, y):
   return (x + y), (x * y)sum_times(2,3)

  03. 数据库

在之前的几篇教程中,我们已经接触过了一些数据集,既有在程序中生成的,也有存储在文本文件中的。对于体积较大的数据集,一般都存在文件中,程序运行时再读入内存。

但是文件存储数据(.txt或.csv)还面临很大的问题,一是当数据量比计算机内存还要大的时候,会带来沉重的计算负担甚至无法运行;二是数据有可能高频变化,比如电商在双11高峰期每秒就有几万次交易,普通的文件格式显然无法处理。

于是数据库(database)应运而生。数据库首先是结构化(structured)存储数据的方式,为了更加灵活的处理数据,程序不再一次性将所有数据读入内存,而是根据具体需要进行查询(query),获得相应的数据集。完成这些工作的程序语言叫作SQL(Structured Query Language),在计算机方面稍有常识的朋友想必都对这个缩写不会陌生。

著名的关系型数据库管理系统有MySQL, Oracle等。

  04. SQLite

SQL是专为查询、操作数据库所用的语言,所以不像Python, JavaScript等语言那样功能丰富,扩展多样。

一个数据库由若干个表(table)组成,就像每个Excel文件里有多个Sheets。每个表又包含行(row)列(column),这就比较好理解了。一行代表一个样本,而多列定义了各个维度上的属性。

SQLite是一种轻型的数据库管理系统,占用资源极低且处理速度快,目前更新到了3版本。Python有专门处理SQLite语句的库sqlite3

import sqlite3

以下我们将以一份NBA的历史赛程数据为例,来了解SQL的基本法则与应用方法。(数据来源:FiveThirtyEight

  05. 查询

与数据库进行通信的最基本形式是查询(query),即返回符合条件的数据子集,其基本关键字是SELECT,SELECT后面跟所选列的表头。前面提到过一个数据库里可能存在多个表,所以查询语句必须指定来源表,关键字是FROM。

SELECT column1, column2, … FROM table;

注意SQL是要求句末有分号(;)的,这与Python的习惯大为不同,可能会唤起一度为C++支配的恐惧。

NBA数据库里只含一张表,名为sheet,假设我们想要查询sheet表中的team_id列,那么对应的SQL是:

SELECT team_id FROM nba_history;

如果数据库非常庞大,那么即使哪怕仅仅查询某些列,也是不小的计算量,这里可以引入新的关键字LIMIT,之后接想要查询的行数。比如只想要前 5 行的 team_id 列,那么SQL为:

SELECT team_id FROM nba_history LIMIT 5;

下例将通过Python调用SQLite,查询elo_n和win_equiv两列的前5行:

import sqlite3

conn = sqlite3.connect('/mnt/vol0/Py_Intro/05_tuple_database/nbaallelo.db')

cur = conn.cursor()


# 代码补完


query = 


#代码补完


cur.execute(query)

elos = cur.fetchall()

conn.close()


print(elos)


补完提示:回顾示例,替换关键字之间的名称,并以字符类型赋值予变量 query

可见,查询语句返回的是以元组(tuple)为元素的列表(list)。上例的输出即是5个(elo_n, win_equiv)组成的列表,应为:

[(1293.2767, 40.29483),

 (1306.7233, 41.70517), 

(1309.6521, 42.012257), 

(1297.0712, 40.692783), 

(1279.6189, 38.864048)]

  06. SQLite with Python

在04节最后的例子中,除了SQL语句,还有很多Python命令,这些是Python调用SQLite的语句。

连接对象

首先是建立与数据库的联系,sqlite3.connect()将返回Connection实例对象,然后存为conn变量,此时的conn对应的是整个数据库。

import sqlite3

conn = sqlite3.connect("/mnt/vol0/Py_Intro/05_tuple_database/nbaallelo.db")

游标对象

Connection对象的.cursor()可以创建游标对象(cursor object)。游标对象可以对数据库执行SQL语句并进行更灵活的数据操作。

王莽的游标

query是纯SQL语句,通过cur.execute()实际执行,此时数据库查询的结果仍在cur对象中。最后调用cur.fetchall()将查询结果全部返回,并存至变量elos,就是最终得到的元组列表。

如果只想返回一条查询结果,可以使用cur.fetchone()

关于Python与SQLite3的联合应用,以后还会深入讲解,本篇仍将重点回归到SQL语句上。

  07. Where

仅仅从数据库的某个表中查询某一列的前若干行,这样的操作局限性太大,很难满足应用需求。实际上我们感兴趣的数据子集并非总是按照顺序排列,而是符合某种限制条件。

为了进一步缩减精确查询范围,可以使用关键字WHERE。比如我们想要查询NBA历史上,赛后elo值elo_n高于1850的强队ID,其SQL语句是:

SELECT team_id, elo_n FROM sheet WHERE elo_n > 1850

查询结果表明,历史上唯一一支elo值曾经突破1850的队伍是1996年总决赛时期的芝加哥公牛。

下面请查询elo_n低于1100的弱队ID,及其对应比赛日期。sqlite3库以及连接对象、游标对象已经预定义,可以从定义SQL查询语句query开始。

# 代码补完


query =


# 代码补完


cur.execute(query)

elo_1100 = cur.fetchall()

conn.close()


print(elo_1100)


补完提示:请以"fran_id", "date_game", "elo_n"的顺序进行查询。

查询筛选结果显示,历史上一度衰到1100以下的弱旅,也只有1968年一支名为"Squires"的队伍。

他们这么弱,我认为与名字起的不好是分不开的。"Squire"在英文中是“侍从”的意思,在《炉石传说》中,就有很多仆从名为"Squire",比如11圣盾小兵:

雷锋网(公众号:雷锋网)相关阅读:

用 Python 分析过去四年的比赛数据,实力最强的 NBA 球队原来是它

禅与奶罩识别艺术(上)

雷锋网

百度实时语音转换技术 DeepVocie;谷歌 Python Fire 等| AI 研习社周刊

█开发工具

  • 微软发布 Azure Stack  第三技术预览版本

Azure Stack 是微软为大型企业客户开发,在本地部署的数据中心运行私有云或混合云的服务。其正式版本预计于今年年中推出。3 月 1 日,微软公布了它的第三个技术预览版本。

微软副总裁 Mike Neil 强调,Azure Stack 将根据实际使用情况按需定价,但也会提供年费方式的固定价格选项。

详情:http://www.leiphone.com/news/201703/nYfx3ZLOXqMckzPZ.html?type=preview 

  • 谷歌开源 Python Fire

3 月 2 日,谷歌公布了新的 Python 工具包——Python Fire。它的功能很简单:能从任何 Python 代码生成命令行接口(CLI)。开发者面对任意一个 Python 程序,仅需调用 Python Fire 即可把该程序转为 CLI。Python Fire 已开源,用户可通过`pip install fire`在 PyPI 进行下载,也可以去 GitHub 查看它的源代码。

详情:http://www.leiphone.com/news/201703/faNO0yTImFEYCu6j.html?type=preview 

  • NASA 发布 2017-2018 软件目录

3 月 2 日,NASA 正式宣布了新一批对外开放的软件目录,包含大量 app、代码库和工具。当然,大部分 AI 从业者可能对其中大部分的气象、系统测试、航空动力装置、太空探索等领域的科研软件不感兴趣。雷锋网消息,NASA 开放软件中还包括了其科研人员日常使用的图像、数据处理软件,更有大量无人飞行器领域的研发、测试软件。

详情:http://www.leiphone.com/news/201703/faNO0yTImFEYCu6j.html?type=preview 

█硬件

  • 树莓派 Raspberry Pi Zero W 发布

 2 月 28 日,树莓派诞生五周年之际,Raspberry Pi Zero W 发布。它整合了 802.11n WiFi 和蓝牙 4.0 模块,其他参数与 Zero 一致。这是树莓派家中族第一款提供无线功能的产品。售价为 10 美元。

详情:http://www.leiphone.com/news/201703/nYfx3ZLOXqMckzPZ.html?type=preview

  • 英伟达发布 GTX 1080 Ti

雷锋网消息 ,2 月 28 日晚,英伟达发布了万众期待的 GTX 1080 Ti,并表示,其性能超过 GTX 1080 约 35%。雷锋网消息这使得 GTX 1080 Ti 与 Pasal Titan X 的性能不相上下,部分非公版型号甚至可能犹有过之。

详情:http://www.leiphone.com/news/201703/vd9ML1lRSaiZGEYD.html?type=preview 

█平台

  • Line、LG、索尼三巨头联手,推出 AI 语音助手平台 Clova

雷锋网消息,本周,日韩三巨头联手推出 Clova,以及与之捆绑的一系列 AI 软件工具。后者可对日语、韩语的语音识别和自然语言处理(NLP)进行支持。

作为对标亚马逊 Alexa 的服务,Clova 将在未来被应用于智能家居、玩具和其它智能硬件设备上。索尼将于 2018 年推出搭载 Clova 的智能硬件产品。另外,Line 还收购了东京物联网设备、家庭机器人初创公司 Vinclu,着手开发基于 Clova 的硬件产品。

详情:http://www.leiphone.com/news/201703/nYfx3ZLOXqMckzPZ.html?type=preview

█前沿技术

  • 百度 Deep Voice 实现文本到语音的实时转换

雷锋网消息,3 月 1 日,百度公开宣布了 Deep Voice,一个产品级的文本到语音转换( text-to-speech,TTS)系统。

该系统完全由深度神经网络搭建而成,最大的优势在于能够满足实时转换的要求。在以前,音频合成的速度往往非常慢,需要花费数分钟到数小时不等的时间才能转换几秒的内容,而现在,百度研究院已经能实现实时合成,在同样的 CPU 与 GPU 上,系统比起谷歌 DeepMind 在去年 9 月发布的原始音频波形深度生成模型 WaveNet,要快上400倍。

详情:http://www.leiphone.com/news/201703/vd9ML1lRSaiZGEYD.html?type=preview 

雷锋网