×
支撑199IT开展可参加常识沟通群(4000+用户),最有价值数据同享和评论!
点击即可参加!
封闭

怎么全面解析数据并发明数据故事

介绍

“讲故事”的主见是极好的:将一个主见或事情变成一个故事。它将主见带进日子,并为其增添了趣味。这发作在咱们的日常日子中。不管咱们陈说一个风趣的事情仍是新发现,故事总是招引听众和读者爱好的首选。

例如,当咱们议论一个朋友是怎么被教师叱骂时,咱们倾向于从头开端叙说事情,这样故事才干流通。

关于一个 “常见的导致驾驭分神的原因” 的事例,咱们以性别分类,能够有2种办法去叙说它:

第一种办法,给出如下的核算数据:

  • 6%的男性以为发短信是一种搅扰,而女人有4.2%这样以为;
  • 儿童在车里或许导致9.8%的男性分神,而女人分神的有26.3%。

第二种办法,以下面这种视觉的办法,从头创立类似的核算信息:

你觉得哪种,叙说了一个更好的故事?

目录

一、讲故事的必要性

二、怎么发明故事?

1. 从纸—笔开端

2. 深化开掘,找出你的故事的仅有意图

3. 运用一个强壮的标题

4. 规划 “路途图”

5. 扼要的总结

三、数据类型和适宜的图表

1. 文本 [Wordclouds 文字云]

2. 混合 [Facet Grids 面网格]

3. 数字 [Line Charts/Bar Charts 折线图/条形图]

4. 股票 [Candlestick Charts 烛台图]

5. 地舆 [Maps 地图]

四、猜测模型过程中的故事

1. 数据探究

2. 特征可视化

3. 模型创立

4. 模型比较

五、讲故事的最佳实践

六、完毕语

一、讲故事的必要性

讲故事的艺术,既简略又杂乱。故事激起考虑,并能提出曾经没有被了解或被解说的见地。在数据驱动操作中,它常常被忽视,由于咱们以为这仅仅一项微乎其微的使命。咱们没有意识到的是,再好的故事,假如没有很好地出现出来,也毕竟毫无用处!

在一些公司中,剖析任何事情的第一步是将故事载入其间。发问如,为什么咱们要剖析它?咱们能从中作出什么决议?有时,单凭数据就能够叙说一些直观或杂乱的故事,咱们就不需求再运转杂乱的相关性来证明了。

需求故事和图画来解说数据的一个最好的比方是 “Anscombe四重奏解析”。“Anscombe四重奏”中包括四个数据集,它们具有十分类似的核算定论,但当你将它们可视化后,成果却彻底不同。

以上是 “Anscombe四重奏”中描绘的4个数据集。假如只看数字,会发现它们的汇总核算数据几乎是相同的。

让咱们看看可视化后,它们的姿态:

你有想过这四个数据聚会出现如此不同的视觉效果吗?

二、怎么发明故事?

发明故事或一个情节是推动你的主见的第一步。大多数人没有去考虑他们自己的故事,也就无法差异于平凡。让我举个比方,辅导你完结创立故事的过程。

咱们将探究一个数据集,该数据集包括新闻头条和纳斯达克100家科技公司每支股票的具体价格记载 ( NASDAQ-100 technology sector)。

挑选的列名如下:

 

1. 从纸—笔开端

视觉上引人入胜的演示文稿将启示你的听众,但它们必定需求投入更多的作业。其间一个最好的演示文稿是在粗糙的页面和薄纸上创立的。

在你创立你的故事前写下主见和流程,关于终究的制品十分要害。

为了显著地进步你的剖析,你要做的最重要的一件事是要讲一个故事。你生成的流程终究的成果中或许会有许多抵触。

亚里士多德的经典五点计划,有助于供给激烈的影响:

  • 传递一个能引起听众爱好的故事或观念;
  • 提出一个有必要处理或答复的问题;
  • 为你提出的问题供给一种答案;
  • 描绘选用该答案下的举动计划的具体的优点;
  • 提出举动召唤。

我构建陈说的一般办法是参加图表,它们能让我更好的了解数据。

我的第一个主见是,经过运用手头上的数据,怎么能做出更好的股票事务决议计划?

运用折线图能够协助我剖析特定股票价格的趋势线。

如我所见,2016年2月一切股票都跌落了。这将协助我从那个事情段中查找新闻,以确认导致下降的原因。现在,我该怎么挑选从哪个新闻源获取信息?

经过确认哪个新闻源对某一特定股票陈说的最多,咱们将有理由信任,关于该支股票,那将是一个不错的信息来历。

2. 深化开掘,找出你的故事的仅有意图

  • 细心辨认,你的故事是什么意思。问问自己,“用这个故事我真实地给出的是什么?” 不是故事自身,而是故事能做什么,以使你做出更好的决议计划。你展现的是一个更好的决议计划或剖析的主见。【果壳与果仁儿的联络】
  • 提出一个“个人热情宣言”。用一句话,说出你的期望和为什么你关于运用这样的主见而由衷得感到振奋。你的热情宣言将被铭记好久。

3. 运用强壮的标题

  • 创立你的标题,一句话来陈说你的故事,视觉或剖析。最有用的标题是简练的,具体的,并能供给给个人优点的。
  • 记住,你的标题是一个能使你的听众更好地去了解的观念。不是关于你自己的,也不是关于他们的。

4. 规划一个路途图

  • 创立一个清单,其间包括一切你想让听众,从你的故事,视觉化或剖析中知道的要害词.
  • 对该清单分类,直到只剩下3个首要信息点。这3个点构成一组将为你的故事供给纵向路途.
  • 在每条要害信息的下面,增加支撑证据以增强叙说。能够是个人故事,现实,比方,类比等。

5. 扼要的总结

现在你现已提出了你故事中的一切要害点,你的定论应该简略有力。在我的陈说中,我提到了3–4行的总结来阐明为什么要买某支股票。

三、数据类型和适宜的图表

让咱们了解一下常见数据类型和怎么经过挑选最适宜的图表来叙说故事。

 

常见的数据类型:

1. 文本数据

当数据以这种办法发现时,一般很简略找出一个词被运用的频率或文本情感。运用这种办法的数据能够最好地叙说故事。

文本数据最适宜的可视化办法之一是“文字云”。它的机理是,将更频频的词放到中心并扩大它们,让咱们清楚地了解文本的一般概念所描绘的内容。

例如,上面显现的文字云给出了Twitter数据集的表明。这表明dismal和miss是最常用的消沉词。

2. 混合数据

当咱们的数据由数字或许其它各种格局组成时,咱们需求知道哪些格局是重要的,并从数据会集得到好的见地。

这种数据的首选视觉效果或许会有所不同;这儿我将向你展现怎么运用“平面网格”来处理数据。我将运用的是泰坦尼克号的乘客数据。

正如这张图所示,女人和头等舱乘客的生计几率高于机组成员或较低铺位的男性。

这不正是泰坦尼克号上真实发作的事吗?

另一种可视化此类数据的办法是测验运用“多变量图”。下面是关于轿车功能和标准的数据集。

这儿咱们能看到,具有更重车身的轿车比那些具有更轻车身的轿车慢。有道理,对吗?

3. 数字数据

当咱们遇到这种数据时,一般会寻觅描绘数字的线条或趋势。折线图会是不错的挑选。

这儿咱们能够很明晰地看到,成人和儿童在当地景点的价格上涨。很简略就看出每年的增加幅度。

4. 股票

咱们还会碰到与股票有关的数据集。股市数据首要是一个数值数据的时刻序列,但作为一个交易员或出资者,我想慎重地了解每个日期和跌落信息。

在这方面,最具招引力的可视化办法是“烛台图”。

这儿咱们以特斯拉股票为例。烛台图能够在每个日期上操作,并独自检查股票的凹凸。这有助于咱们根据当时或曩昔的商场趋势做出更好的出资决议计划。

如图所示,2016年2月特斯拉股票跌落。咱们能够运用这些信息来了解其它商场状况和经济状况,从而对它们的股票做出决议计划。

5. 地舆数据

当咱们有关于特定方位和区域的数据时,咱们运用地图来增加剖析的明晰度和含义。

在这个比方中,咱们能够看到各国在2002年世界杯前后的体现。德国队进球最多,是世界足球史上最具统治力的球队之一。

四、在猜测模型的每一步中叙说故事

咱们常常被问到,故事和视觉效果在创立数据模型时,是怎么起作用或供给协助的。在猜测建模的一切阶段中,叙说故事或许是对剖析的重要弥补。

让咱们了解从数据中创立模型并在其间叙说故事的根本过程。

1. 数据探究

建模的第一步是了解你的数据。我将向你展现怎么在不核算杂乱的核算数据的状况下,探究数据。

这是一个关于葡萄酒质量的数据集。该数据集的结构如下:

这儿是对该数据集的相关核算摘要:

所以,假如咱们需求看酒精量和葡萄酒质量间是否有任何联络时,该怎么做呢?

能够核算Pearson的‘r’。它将协助咱们树立模型,但不会帮咱们剖析太多。

这表明酒精含量与葡萄酒质量之间存在很强的相关性。 但它会告知你其他什么吗?

抱负状况下,它没有。 那么,有什么用呢?

让咱们看看,怎么从可视化中了解更多。

首要,咱们看红酒质量是怎样和酒精含量相关的。

能够看出,酒精含量越高,葡萄酒质量越好,这有助于咱们更好地了解咱们的数据。在这种状况下,咱们还能发现异常值。

接下来,你会想知道葡萄酒中的酸含量是怎么影响其质量的吗?

这是可视化酸效应的一种办法。跟着Violin Plot横向扩展,外表在这些区域中有更多的数据点。

2. 特征可视化

在你生成特性后,怎么看出一个猜测的好坏。

图表告知咱们,猜测点离拟合线的间隔。

另一个咱们有必要创立的视觉效果的比方是“主成分剖析”(Principal Component Analysis)。假如您想深化了解PCA,能够阅览下面链接中的文章。

  • Practical Guide to Principal Component Analysis (PCA) in R & Python

https://www.analyticsvidhya.com/blog/2016/03/practical-guide-principal-component-analysis-python/

这是在Rstudio中的Iris数据集:

 

当咱们对该数据集运转主成分剖析时,会发现这些核算信息。

当咱们制作这个时,咱们会发现视觉化成果比核算数据更具信息性。

 

3. 模型创立与比较

到了模型创立阶段,咱们会发现需求了解数据的拟合办法。

这是一个根据路途斜度和波动程度猜测轿车该快仍是慢的模型。

如你所见,决议计划鸿沟清楚地对大多数数据进行了分类,但88.21%的准确率并不能阐明问题。图中咱们乃至能够看到过错分类的点离决议计划鸿沟有多远。

咱们能够经过检查决议计划鸿沟来比较某些算法和技能。

下面显现了运用Iris数据集的另一个示例:

这儿没有太多信息来获取关于模型的有价值的见地。

想了解更多关于向量机的信息,能够阅览下面这篇文章:

  • Understanding Support Vector Machine algorithm from examples (along with code)

Understanding Support Vector Machine algorithm from examples (along with code)

另一方面,该图向咱们展现了一个明晰的物种的分类鸿沟。

五、讲故事的最佳实践

现在你现已知道能够用“讲故事”的办法来解说咱们的观念,当你自己处理这个问题是,我将给你一些有用的提示:

  • 一直在图中符号轴并给出绘图标题;
  • 必要时运用图例;
  • 运用眼睛看起来较浅而且份额适中的色彩;
  • 防止增加不必要的细节,比方不具备杰出可读性的布景或主题;
  • 只要一个点能够根据水平缓笔直方位一起编码两个定量值;
  • 怎么你正在进行时刻序列的编码,不要运用点进行可视化。

六、完毕语

讲故事的办法不仅仅是它的用法。它能帮你从你曩昔遗失的数据中开掘新见地。数字永久无法明晰的描绘特征和数据之间的联络,故事和图表将是很好的代替。

本文中咱们现已具体论述了故事是怎么在各种途径中被运用的。从它们在模型构建过程中的运用办法开端,咱们逐步了解哪些图表适宜哪些特定的数据类型。

期望你读完这篇文章很高兴。 等待听到你的数据故事!

原文标题:

The Art of Story Telling in Data Science and how to create data stories?

原文链接:

The Art of Story Telling in Data Science and how to create data stories?

来自: THU数据派

感谢支撑199IT
咱们努力为我国互联网研讨和咨询及IT职业数据专业人员和决议计划者供给一个数据同享渠道。

要继续拜访咱们的网站,只需封闭您的广告拦截器并改写页面。
翻滚到顶部