[构成比率用啥图表示比例]数据可视化(三):如何选择图表(【对比型数据】和【分布型数据】)——学习笔记
上一则自学的是如前所述【排程型统计数据】和【比例型统计数据】怎样优先选择图象,这篇探讨如前所述【对照型统计数据】和【原产型统计数据】来优先选择图象:
【对照型统计数据】:对照三组或是三组以内统计数据的差别;【原产型统计数据】:积极探索统计数据原产的分散态势、对数某种程度、原产花纹。
一、对照型统计数据建模
对照型统计数据通常是较为几段统计数据的差别,那些差别透过听觉地下通道和记号来界定,充分体现在建模中通常来说整体表现为下列三种差别方式:
(1)度差别/长度差别:用图象、displayed。
(2)占地面积差别:占地面积图、液体图。
(3)明甫差别:单字雷达网。
(4)花纹差别:球状图。
对照型统计数据建模加进的图象:
1、图象
图象可用作较为相同进行分类统计数据的建模,但图象的统计数据单条,最合适千万别少于12条。依照统计数据类型的特征值和建模的目地,图象还可行业龙头为:
(1)单个图象。常见于单个类型的统计数据对照,也能则表示对数型排程统计数据随天数变动的态势;
(2)重合型图象。适宜三个类型的统计数据对照,西向的乳白色六角形条则表示某类分项的【平均速度】,外部眉部且不透明化的六角形条则表示某类分项的【前述顺利完成情形】。通常来说会配搭折线图采用,折线图则则表示最终目标效果显著;
(3)并列图象。常见于三个或三个统计数据类型的对照,通常统计数据类型不能超出3个;
(4)堆叠图象。即能对照总体统计数据,也能对照总体的各形成部分,但总体各形成项通常千万别大于5个,若大于5个,可按占总体的比例进行归类,只展示前五个的进行分类,剩下的归为【其他】。
2、displayed
displayed类似于图象,看起来像是对图象的x、y轴进行旋转。大部分情形下,displayed与图象能互换,但displayed也可用来展示六角形图不方便展示的统计数据:
(1)当统计数据单条大于12条时,能用displayed,但千万别少于30条;
(2)当图象的x轴描述文字过长,不方便显示时,可用displayed。
3、占地面积图
占地面积图,其实就是折线图和折线图投影到X轴的直线所围成的占地面积。按照对照方式的相同,占地面积图又能分为:【重合对照型占地面积图】和【堆砌对照型占地面积图】,两者的区别如下:
(1)重合对照型占地面积图。所有类型的占地面积都是以X轴作为基准线,相同类型之间有重合和覆盖的关系,也可用作分析各个类型随天数的变动态势;
(2)堆砌对照型占地面积图。只有最底层类型的占地面积基线和X轴重合,其他类型都是叠加在它们下面一组的统计数据上面,假设最底层为(2,1),它的上一层为(2,2),则在图中,它的上一层坐标为(2,2+1)。另外也能用作分析整体随天数的变动态势以及整体的各形成项随天数的变动态势;
4、液体图
液体图,能展示三维统计数据的建模,x轴为第一维、y轴为第二维、液体的占地面积大小为第三维,液体的颜色用来界定相同类型。而散点图通常用作二维统计数据的建模,点的大小都一样。
5、单字云
单字雷达网,是透过单字的明甫大小来反映词频的大小,明甫越大,词频越高。主要用作网络文本中词频统计数据的建模,例如关键词搜索、文章高频词、热点事件关键词等。通常来说,为了达到贴合主体的特征,以及听觉美观的目地,用户能自定义单字云的配色方案、背景花纹等设计层面的个性化。
透过单字雷达网,用户能快速找出网站搜索的高频词汇、了解文章的主旨、得到热点事件的关键信息。但单次雷达网只适宜则表示一组文本统计数据内的对照,不适宜多个类型的文本统计数据之间的较为。
6、雷达图/球状图
雷达图/球状图是用来对照一个主体、或多个主体本身,在相同维度上的特征,两者区别如下:
雷达图是展示一个主体在相同维度上的统计数据特征,对照的是,同一个主体,在相同维度上的偏向。主要应用作企业经营状况评价;球状图是展示多个主体在相同维度上的统计数据特征,对照的是,相同主体之间的差别和侧重点。
雷达图能看作是球状图中的一行记录,通常情形下,会给予相同维度上的数值一定的权重,从而算出各个主体的综合得分。比如个人综合素质度量。
二、原产型统计数据建模
原产型统计数据的建模主要是对统计数据的描述性特征,比如对数某种程度、分散态势、偏态、峰度等进行展示,透过那些反映统计数据原产特征的关键分项。统计数据的描述性统计分项大概如图所示:
相应的,原产型统计数据常见的建模图象有下列三种:
1、直方图
直方图是展示对数型分组统计数据的原产情形,分为【频数直方图】和【频率直方图】,两者的区别在于,【频数直方图】的y轴显示的是数量,【频率直方图】的y轴显示的是占比情形,即频率。绘制直方图分三个步骤:
首先,对统计数据进行分组,并统计每一组统计数据的频次或是频率;其次,在平面直角坐标系中,X轴标出每个组统计数据的下限和上限;最后,y轴则表示频数或频率,每个矩形的高代表对应的频数或频率。
2、茎叶图
茎叶图通常适宜统计数据为整数的统计数据的建模,原理是,将一组统计数据按照统计数据位数进行较为,将统计数据中的高位数作为树茎,低位数作为树叶。假设有如下一组统计数据:
3,7,9,14,15,16,25,26,29,36,41,43,45
则:
树茎树叶(频数)0313233143
3、箱线图
箱线图是一种用作显示一组统计数据分散情形资料的统计图,常见来对照多组统计数据的原产情形,检测统计数据中的异常值或离群点,绘制方法如下:
先找出一组统计数据中的四分位数以及最大值、最小值;连接上四分位数Q3和下四分位数Q1画出一个箱子,箱子中间用中位数画一条线;在箱子的上下部又各有一条线,代表着最大最小值;
另外,箱子的长度即四分位距(Q3-Q1)在一定某种程度上反映了统计数据的对数某种程度。
4、概率密度图
概率密度图是用来描述连续型随机变量其原产规律。连续型随机变量取值某个确定数值的概率则为概率密度函数在这个区域上的积分,也就是区间的上下限与概率密度曲线围成的占地面积。透过图形化的方式,我们能清楚的看到随机变量原产的情形,以及随机变量取值是分散还是分散,那些能透过偏态系数和峰度系数来度量:
(1)对于标准正态原产来说,偏态系数SK=0,当SK<0,图形左偏原产;当SK>0,图形右偏原产;
(2)标准正态原产中,峰度系数为β=3,当β<3,图形呈现扁平原产;当β>3,图形呈现尖峰原产。
5、散点图/液体图
液体图的用法同上述(一、4)。
散点图,通常是用作研究三个变量之间的相关关系,能是一个类型统计数据,也能是多类型统计数据,但都是二维的数组(x,y),相同类型的统计数据可用颜色来界定。
6、热力图
热力图,是以特殊高亮的方式显示访客热衷的页面区域或访客所在的地理区域的图示,目前主要应用在下列几个方面:
(1)网站热力图。网站热力图就是如前所述网页访问者所有点击和鼠标移动的统计数据而创建的热力图,对于受关注度相同的区域分别进行着色,红色是最热门(用户关注度最高)的区域,而蓝色则是最冷门(用户关注度最低)的区域。这种建模格式能帮助人们了解网页的哪一部分最吸引人。
(2)热力地图。热力地图就是利用获取的手机基站定位该区域的用户数量,透过用户数量渲染地图颜色。主要显示一个城市的某个区域人员或车辆拥挤某种程度,颜色越深则表示人员越多,颜色浅代表人较为少,地图就是方便人们的出行,有了热力图能很直观的看到区域内的人群流量。
(3)业务统计数据分析。一些如前所述地理位置或是如前所述天数原产的统计数据,能利用热力图来进行建模分析。
7、地图
当统计数据是如前所述地理位置进行分组或是统计数据的重要属性中有地理信息时,能用地图来展示统计数据在各个地理区域的原产情形。比如显示全国各地区的人均收入、各地区的人员数量都能用地图建模。
三、总结
透过上面的自学,可知无论是要对照统计数据,还是积极探索统计数据的原产情形,都需要依照统计数据的类型、统计数据的特征来确定建模的最佳方式。图象的优先选择方式大致如下:
四、建模实践
1、对照型统计数据
场景1:较为三家电商公司在消费者心中的印象评分
电商平台商品丰富度商品质量物流效率售后服务淘宝4.94.34.34.9京东4.24.74.94.6拼多多4.7444.5
问题1:以内统计数据适宜用什么图形展示,请用建模工具进行实现。
回答:观察上述统计数据发现,需要对照三个电商平台在四个方面的评分,这里能用六角形图,x轴为评分的四个方面,y轴为评分,六角形的高低代表评分的高低。如图:
2、原产型统计数据
场景2:某公司50家店铺的月度收入、成本和综合评分
店铺名称月度收入(W)月度成本(W)月度综合评分(百分制)店铺120.6352.6372店铺21006592店铺3795293.5店铺4403990店铺5232678店铺6361394.2店铺7493293.5店铺8624494店铺9755694.1店铺10886894.2店铺111018094.3店铺121149294.4店铺1312710494.5店铺1414011694.6店铺1515312894.7店铺16835694.8店铺17131579店铺1820.930.976.6店铺1928.838.876.5店铺2036.746.776.4店铺2144.654.676.3店铺2252.562.576.2店铺2360.470.476.1店铺2489.499.476店铺2565.675.675.9店铺2641.83491.8店铺27181591.2店铺2821.861890.9店铺2925.721993.5店铺3029.582890.8店铺3133.443778.9店铺3237.34680.4店铺3341.165576.9店铺3445.026475.6店铺3548.884492.7店铺3652.742496.5店铺3756.643.693.2店铺3860.4647.4693.3店铺3964.3251.3293.4店铺4068.1855.1893.5店铺4172.0459.0493.6店铺4275.962.993.7店铺4379.7666.7693.8店铺4456.7643.7693.9店铺4533.762392.8店铺4610.761674店铺4718.661392.7店铺4826.561592.8店铺4934.462892.9店铺5042.364675
问题2:用户想了解这50家店铺的收入、成本和店铺综合评分的原产,请问用什么图形展示,请用建模工具进行实现。
回答:这里用描述性统计来描述统计数据原产,收入、成本和店铺综合评分分别用箱线图展示。