您好,欢迎来到三六零分类信息网!老站,搜索引擎当天收录,欢迎发信息
免费发信息
三六零分类信息网 > 黄南分类信息网,免费分类信息发布

通过Pandas实现快速别致的数据分析

2024/1/8 22:52:12发布22次查看
更多腾讯海量技术文章,请关注云+社区:)和read_csv功能(#io-read-csv-table)的更多信息。
描述数据
我们现在可以看看数据的结构。
我们可以通过直接打印数据框来查看前60行数据。
我们可以看到,所有的数据都是数值型的,而最终的类别值是我们想要预测的因变量。
在数据转储结束时,我们可以看到数据框本身的描述为768行和9列,所以现在我们已经了解了我们的数据结构。
接下来,我们可以通过查看汇总统计信息来了解每个属性的分布情况。
这将显示我们数据框中9个属性的各个属性详细分布信息表。具体包括:数量、平均数、标准差、最小值、最大值、第一四分位数、第二四分位数(中位数)、第三四分位数。
我们可以查看这些统计数据,并开始注意与我们的问题有关的有趣事实。如平均怀孕次数为3.8次、最小年龄为21岁,以及有些人的体重指数为0,这种不可能的数据是某些属性值应该标记为缺失值的标志。
点击链接,详细了解数据框的描述统计功能()。
可视化数据
图表更能说明属性值的分布和其间的关系。
不过,重要的是要先花时间了解数据的统计信息。每次以不同的方式查看数据时,您都有可能使自己注意到不同方面的信息,并可能会对问题产生不同的见解。
pandas通过matplotlib模块来提供便捷地建立图像的功能。您可以点击链接了解更多有关pandas中数据可视化的知识。
特征分布
第一个容易查看的性质是每个属性的分布情况。
我们首先可以通过箱线图来了解每个属性数值的散布情况。
这段代码将绘制图形的样式(通过matplotlib)更改为默认样式,这样效果更好。
箱线图
我们可以看到,测试属性有很多异常值,同时可以看到,plas属性值接近于正态分布。我们还可以通过将每个属性的值进行分段来绘制直方图矩阵,进而观察每个属性的分布情况。
直方图矩阵可以让您清楚地发现各个属性的分布特征,例如接近于正态分布的pres和skin属性。
直方图矩阵
您可以点击链接,查看有关箱线图和直方图的详细信息。
箱线图:
#pandas.dataframe.boxplot
直方图:#pandas.dataframe.hist
特征-分类关系
下一个要探讨的重要关系是每个属性的类属性。
一种方法是可视化每个类的数据实例的属性分布以及注释和差异。您可以生成每个属性的直方图矩阵和每个类值的直方图矩阵,如下所示:
数据按类属性(两组)分组,然后为每个组中的属性创建直方图矩阵。结果是两个图像。
类别0的属性直方图矩阵
类别1的属性直方图矩阵
这有助于指出诸如plas属性的类之间的分布差异。
您可以更好地比较同一图表上每个类的属性值:
通过绘制只包含plas一个属性的直方图,将数据按类别分组,其中红色的分类值为0,蓝色的分类值为1。除了部分变动,你可以看到一个近似正态分布的分布图像。这个属性可能会有助于区分类。
每个类的重叠属性直方图
点击链接,您可以阅读有关groupby函数的更多信息。
groupby函数:
#pandas.dataframe.groupby
特征-特征关系
最后要探讨的重要关系是属性之间的关系。
我们可以通过查看每对属性的交互分布来观察属性之间的关系。
这里使用一个构建函数来创建所有属性之间交互关系的散点图矩阵。对角线上显示每个属性自身的kernel密度估计。
属性散点图矩阵
这是一个强大的图像,从中可以获得很多有关数据的相关性信息。例如,我们可以看到age与preg之间可能存在的相关性,以及skin与mass之间可能存在的关系。
总结
在这篇文章中我们已经涵盖了很多地方。
我们从快速和别致等妙语趣话开始,载入我们的csv格式的数据,并使用统计摘要进行了描述。
接下来,我们探索了各种不同的方法绘制我们的数据图像来揭示有趣的数据结构。我们观察了箱线图和直方图中数据的分布情况、与类属性相比较的属性分布,以及最后在成对散点图矩阵中属性之间的关系。
翻译人:giacin,该成员来自云+社区翻译社
原文链接:https://machinelearningmastery/quick-and-dirty-data-analysis-with-pandas/
原文作者:jason brownlee
黄南分类信息网,免费分类信息发布

VIP推荐

免费发布信息,免费发布B2B信息网站平台 - 三六零分类信息网 沪ICP备09012988号-2
企业名录