数据可视化东西Metabase不会写SQL代码也能做数据剖

2020-12-24 21:47 admin

Matrix 精选

Matrix

是少数派的写作社区,咱们建议共享实在的产品体会,有有用价值的经历与考虑。咱们会不定期挑选 Matrix 最优质的文章,展现来自用户的最实在的体会和观念。

文章代表作者自己观念,少数派仅对标题和排版略作修正。

在这个大数据年代,咱们每个人的作业,都或多或少要跟数据打交道。小到记载自己的账本,大到用数据辅佐企业战略决议计划。用好数据,能够在必定程度上协助你地点的团队,和你个人增值。

有价值的数据,许多都存储在了各种数据库里边。想要运用好它们,只会用 Excel 或许 Access 是不行的。一般来说,查询它们的最好办法,是学会各种查询言语。最常见的,便是 SQL。

在闻名的 Python 课程 Programming for Everybody 里边,主讲教授密歇根大学的 Chuck 以为,SQL 言语是编程言语中最简略的一种。

可是,咱们仍是实际一点。

许多时分,你有剖析数据的激动,可是并非人人都有时刻和志愿去学一门 SQL 课程,来完结日常作业中的数据查询、剖析和可视化作业。

东西

好在,技术的开展,总是把许多原先专业技术人员才干做的事儿,变成群众都能做的。例如主动挡轿车,例如手机上的相机运用,再例如我今日要给你介绍的 metabase。

metabase 的 Slogan ,是这个姿态的:

翻译过来,要点便是:

一切人都能用

能够简略表达你的问题

使你能从数据中学习

装置

咱们来测验一下 metabase 这款东西,它可彻底适用于团队协作,由于它供给了 Docker 镜像、AWS 和 Heroku 等便利的云端运用办法。

为了介绍的简略与便利,这儿我只给你介绍一下单机版的装置。其他的运用办法,你能够学习本文之后,自己持续发掘。

由于我自己运用的是 macOS ,所以这儿挑选 Mac 下面编译好的装置文件就行。

假如你运用的是其他体系,例如 Linux 或许 Windows ,装置也不费事。只需求点击「其他渠道」按钮,下载一个 jar 类型文件。只需你在体系里边装置好 Java 运转环境,就能够直接双击该文件运转了。

这儿以我电脑上的 macOS 体系为例。翻开下载的 dmg 文件后,把可执行文件拖入到「运用」文件夹,就能够了。

第一次运转的时分,或许需求一些时刻初始化。

当呈现以下界面的时分,就从另一方面代表着准备就绪了。

请你点击上图里边的蓝色按钮,开端设置。

咱们应该输入一些根本注册信息。

之后,挑选咱们应该衔接的数据库。

留意,这儿有许多选项能够再一次进行挑选。这些选项,根本上涵盖了市面上常见的干流数据库类型。

为了便利起见,这儿咱们运用「麻雀虽小五脏俱全」的 SQLite 数据库。其他类型的数据库,你能够稍后自己测验。

我用的样例,是 Stanford 数据库敞开课程运用的 colleges.db 。我自己上课的时分,一向用它作为基础样例演示给学生。

设置结束之后,下面必需求分外留意,有个数据核算选项。 metabase 是在问询你,是否答应把你的运用行为核算信息发给它,协助改善。

假如你乐于共享,能够坚持原先设定。若对自己的隐私比较重视,不必纠结了,能够封闭该选项。到这儿,装置和设置就算完结了。

阅读

下面咱们看看有哪些数据表能够检查。

这个数据库里边包含了 3 张表格,别离是:

Student 学生信息

Apply 请求信息

College 招生校园信息

咱们挑选其间的学生表格。

metabase 默许给了咱们一些根本的描绘性核算成果。例如最重要的,是一张表格到底有多少行。这儿样例 Student 表里,一共有 12 个学生的记载。还没完,往下翻, metabase 还为咱们主动生成了一些其他核算成果。

首先是学生的学号散布。

当然,由于学号无非是个共同数字罢了,所以这个核算没什么用途。但下面这张,就不相同了。这是学生的 GPA 散布,可见,大部分学生的成果高于 3.6 分。数据集不是个均匀或许正态散布。

下面这张图,反映了学生来自的高中校园巨细。看得出来,大部分学生仍是来自于学生人数较多的校园。来自小而精的高中学生人数,相对较少。

下面这张图,核算了学生名字。有意思的是,你能够清楚看到,有重名的学生。

假如你不满足于只看这些核算信息,而期望检查原始数据。那么能够点击「Browse Data」按钮,挑选 college 数据库。

然后挑选其间的 Student 表格,就能看到悉数学生记载信息。

剖析

假如咱们只重视其间一部分学生的状况,能够再一次进行挑选上方紫色的「Filter」按钮。

这儿,一切的条件,都能够终究靠挑选和输入数值来完结,不需求编程。咱们挑选过滤成果只保存 GPA 大于 3.5 的学生。下图左边便是咱们想看的成果了。

可是咱们会觉得,「一幅图胜似千言万语」。怎么办呢?咱们挑选右下方,以 GPA 作为分组依据,然后点击左下方的 Visualization 按钮。

可见,在成果大于 3.5 的学生里边,有 4 个是 3.9 分的成果。这部分学生里边,学强占的份额不小啊。

咱们还能够换一种分组办法,这儿咱们运用高中校园人数作为分组依据。然后再次进行可视化。所以你能够正常的看到,GPA 3.5 分以上的学生,来自于人数规划 1000 的高中最多。

点击可视化按钮,咱们咱们能够挑选不同的图形来表明。这儿咱们挑选饼图。

你觉得在这个问题里,柱状图和饼图,哪个更适合描绘咱们的过滤剖析成果呢?

地图

下面咱们来看看,怎么对数据进行地理信息可视化。也便是,画个地图出来。这儿,咱们选用的,是其间 College 这张表格。这张表格里边,包含以下信息:

咱们计划看看,不同州大学的选取人数。做法很简略,仍是点击上图中显现的 Visualization ,然后挑选图形选项最右下方的「地图」。

修正 Metric field 为 Enrollment 。然后 Region Field 为 State 。

所以你就能看见下面这样的地图了。

有意思的是,metabase 关于州的简写办法也能正确辨认,并且把它们标记在地图上。并且依据汇总招生人数的多寡,还主动挑选了不同深浅的色彩。

相关

下面咱们来看看更有用的剖析手法 -- 相关查询。

从一张表里,咱们现已能够剖分出不少东西了。可是更多状况下,咱们期望选用多张表格联合在一起,然后能从中发掘出洞见。

例如这儿我给你提一个问题:

不同大学选取最低 GPA 是多少?

这个问题,你若是只用一张表,是无非答复的。由于 Apply 表里边尽管有选取决议计划信息,可是不包含 GPA;

Student 表里边尽管包含了 GPA,但你不知道学生报了哪所校园,以及是否被选取了。

让咱们点击上方菜单栏里边的「问问题」按钮,然后从下图中挑选「定制问题」。

然后,你需求挑选数据库。

还得挑选一个初始的表格。

咱们挑选 Student 表。

然后挑选 Join data 。

这儿咱们需求挑选 Apply 表格。

然后会让咱们挑选用哪个列进行相关。究竟,假如咱们把张三的学生信息相关到李四的选取信息记载上,是没有意义的。

咱们调查一下,发现在 Student 和 Apply 中,都呈现了学生的 ID ,这是学生的仅有标识。就用它好了。

下面咱们设置一下过滤条件。明显,已然考虑选取分数,那么就得找出那些被选取的人。

所以咱们在 Filter 一栏里边点击。

挑选 Apply 表格。

然后从中挑选 Decision 。

由于这儿只要两种取值挑选。所以咱们能够再一次进行挑选 Y 。

然后咱们就能够依据校园来检查最低选取分数了。这儿咱们填写绿色的 Summarize 。

咱们感兴趣的是最低选取分数,所以能够从中挑选 Minimum of 。

然后挑选 GPA 作为最小值挑选列。

还没完。由于咱们是需求依照校园来别离核算的。所以在 by 后边挑选 cName 。

经过简略的点选,你现在现已有了一切需求设置的信息。

好,咱们执行吧。挑选 Visualize 。

从这张图里,咱们咱们能够看到,Berkeley 选取学生的 GPA 线最高。 Cornell 和 Stanford 并排最低。由此看来,名校垂青的,绝不仅仅是 GPA 成果啊。是吗?这个作为考虑题,欢迎你把自己的答案写在留言区里边和咱们沟通。

小结

本文我带你用一个极简的数据库样例,测验了不写任何一句 SQL 代码,对数据库进行过滤、剖析、核算、可视化,以及表间相关查询。

你或许会觉得,这么简略的数据,我拿眼看心算,都比你这办法快!

没错,可是幻想一下,假如你的每张表里边,数据量都多上 1000 倍呢?

咱们要学东西,就需求把握这种能规划化运用的技术。尽管初始学习的时分觉得有些繁琐,可是真实帮你应对大规划数据成果的时分,你就能尝到把握它的甜头了。

祝数据剖析愉快!

为您推荐