标签:地图 pychar 第一个 屏幕 数据科学家 not 一个 完全 sel
PyCharm是一种Python IDE,其带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具。此外,该IDE提供了一些高级功能,以用于Django框架下的专业Web开发。嗨,您好!您是否尝试过在PyCharm 2019.2中集成Jupyter Notebooks?赶快来尝试一下吧!在这篇博文中,我们将使用PyCharm及其Jupyter Notebook集成来探索一些数据。首先,我们需要所述数据。每当我需要一个新的数据集来玩时,我通常会前往Kaggle,我肯定会找到一些有趣的主题。这一次,一个名为“ 披萨餐馆和他们卖的比萨饼 ”的数据集引起了我的注意。谁不喜欢披萨?让我们分析一下这些披萨店,并尝试从中学到一两件事。
由于这些数据不是我现有任何PyCharm项目的一部分,我将创建一个新项目。
确保使用PyCharm专业版,Community Edition不包括Jupyter笔记本集成。
提示:在浏览器中使用Jupyter Notebooks时,我倾向于为实验创建多个临时笔记本。为每个项目创建一个PyCharm项目是相当繁琐的,所以相反,你可以有一个项目用于这样的实验。
我喜欢我的东西井然有序,所以一旦项目被创建,我将添加一些结构 - 我将移动下载的数据集的数据目录,以及笔记本的另一个目录。
一旦我创建了我的第一个pizza.ipynb笔记本,PyCharm建议安装Jupyter包并在右上角提供一个链接来做到这一点。
一旦安装了Jupyter软件包,我们就准备好了!
90%的数据科学家在他们的Jupyter笔记本中做的第一件事是打字import pandas as pd。此时,PyCharm会建议在这个venv中安装pandas,只需单击即可完成:
一旦我们安装了pandas,我们就可以将csv中的数据读入pandas DataFrame:
df = pd.read_csv("../data/Datafiniti_Pizza_Restaurants_and_the_Pizza_They_Sell_May19.csv")
要执行此单元格,请按Shift + Enter,或单击单元格旁边的装订线中的绿色箭头图标。
当您第一次运行单元格时,PyCharm将启动一个本地Jupyter服务器来执行其中的代码 - 您无需从终端手动执行此操作。
首先,我们将了解该数据集的基本内容 - 它有多少行?列是什么?数据是什么样的?
我怀疑这些数据仅包含美国餐馆的信息。要确认这一点,让我们计算国家/地区列中的值:
是的,这个数据集中唯一出现的国家是美国,因此country完全删除该列是安全的。同样的,menus.currency和priceRangeCurrency那些价值也是一样的 - 美元。我也会放弃,menuPageURL因为它不会给分析增加太多价值,key因为它会复制其他列(国家,州,城市等)的信息。
我将在这里做的另一个清理是重命名province列,states因为它在这个上下文中更有意义,为了更好的可读性,我将用状态的全名替换状态首字母缩略词。
一旦我们完成清理数据,我们如何绘制它?作为人类,我们更善于在视觉上呈现信息。
首先,让我们看看我们在这个数据集中最常见的披萨类型。鉴于主题,将它视为带有matplotlib的馅饼是合适的
现在还不是我们的馅饼图。为了让它显示,我需要%matplotlib inline为IPython 添加魔术命令,当我在它时,我将添加另一个魔术命令让IPython知道为视网膜屏幕适当地渲染图。
我可以将这些行添加到同一个单元格并再次运行它,但我更喜欢在笔记本的最开始定义这种类型的魔术命令。
要导航到笔记本的最开头,您可以使用 Cmd+[ (Ctrl+Alt+Left on Windows)。插入新单元格就像键入一样简单#%%(如果您更喜欢在当前单元格上方插入单元格的快捷方式,Option+Shift+Aon mac, or Alt+Shift+A on Windows)。现在我需要做的就是添加魔术命令并运行下面的所有单元格:
由馅饼图可知,现在我们知道最常见的披萨类型是芝士披萨,紧随其后的是白披萨。
餐馆怎么样?我们在数据集中有他们的地理位置,因此我们可以很容易地看到他们所在的位置。
每个餐厅都有一个唯一的ID,并且数据集中可以有多个条目,每个条目代表该餐厅菜单中的披萨。因此,为了绘制餐厅而不是比萨饼,我们需要按餐馆ID对条目进行分组。
现在我们可以在地图上绘制它们。对于地理绘图,我喜欢用情节。确保获取它的最新版本(4.0.0),以便在PyCharm中很好地渲染图形输出。
人们可以想到我们可以尝试用这个数据集来回答的一些问题,例如,哪个城市拥有最多/最便宜的Veggie Pizza?或者最常见的比萨餐厅连锁店是什么?如果您想玩这个数据集并回答这些或其他问题,您可以搜集数据并运行您自己的分析。请记住,如果你想用PyCharm试试,请确保你使用的是PyCharm 2019.2专业版。
有趣的教程:在PyCharm2019.2版本中集成Jupyter Notebooks!
标签:地图 pychar 第一个 屏幕 数据科学家 not 一个 完全 sel
原文地址:https://blog.51cto.com/14499080/2444654