摘自:箱线图_symoriaty的博客-CSDN博客
以前对箱线图一直一知半解,这次在网上找到一篇不错的文章。
首先,箱形图更多用于多组数据的比较,相对直方图不仅节省了空间,还可以展示出许多直方图不能展示的信息。单组数据则更适合采用直方图,使可视化效果更加直观。
文章来源于“镝次元”公众号,在此向作者表示感谢。
箱线图也称箱须图、箱形图、盒图,用于反映一组或多组连续型定量数据分布的中心位置和散布范围。箱形图包含数学统计量,不仅能够分析不同类别数据各层次水平差异,还能揭示数据间离散程度、异常值、分布差异等等。
小小箱子,大大信息量
由于箱线图不像柱状图、折线图那样简单常见,许多人都对它敬而远之。但只要我们搞清楚了以下几个统计学的基本概念,箱线图也可以变得“平易近人”。
四分位数
一组数据按照从小到大顺序排列后,把该组数据四等分的数,称为四分位数。第一四分位数 (Q1)、第二四分位数 (Q2,也叫“中位数”)和第三四分位数 (Q3)分别等于该样本中所有数值由小到大排列后第25%、第50%和第75%的数字。第三四分位数与第一四分位数的差距又称四分位距(interquartile range, IQR)。
偏态
与正态分布相对,指的是非对称分布的偏斜状态。在统计学上,众数和平均数之差可作为分配偏态的指标之一:如平均数大于众数,称为正偏态(或右偏态);相反,则称为负偏态(或左偏态)。
魔法箱子,会用才是王道
箱线图包含的元素虽然有点复杂,但也正因为如此,它拥有许多独特的功能:
直观明了地识别数据批中的异常值
箱形图可以用来观察数据整体的分布情况,利用中位数,25/%分位数,75/%分位数,上边界,下边界等统计量来来描述数据的整体分布情况。通过计算这些统计量,生成一个箱体图,箱体包含了大部分的正常数据,而在箱体上边界和下边界之外的,就是异常数据。
判断数据的偏态和尾重
对于标准正态分布的大样本,中位数位于上下四分位数的中央,箱形图的方盒关于中位线对称。中位数越偏离上下四分位数的中心位置,分布偏态性越强。异常值集中在较大值一侧,则分布呈现右偏态;异常值集中在较小值一侧,则分布呈现左偏态。
03
比较多批数据的形状
箱子的上下限,分别是数据的上四分位数和下四分位数。这意味着箱子包含了50%的数据。因此,箱子的宽度在一定程度上反映了数据的波动程度。箱体越扁说明数据越集中,端线(也就是“须”)越短也说明数据集中。
凭借着这些“独门绝技”,箱线图在使用场景上也很不一般,最常见的是用于质量管理、人事测评、探索性数据分析等统计分析活动。
案例1:职员薪酬分布
上海、北京、深圳的数据分析师,薪资范围接近,但是中上游水平的人,北京地区能获得更高的薪资,因为中位数(Q2)的位置更高。西安、长沙、天津则不利于数据分析师的发展。杭州的水平接近北上深,但是薪资上限受到一定限制。
案例2:学生成绩分布
案例3:运动员水平分析
案例4:科学研究分析
1. 误差线
更多镝数使用问题请参看以下文章,如果仍有无法解决的问题,请发送邮件至public@dydata.io或者直接在后台留言。
参考来源:
https://atlasofscience.org/active-ingredients-in-personal-care-products-detected-throughout-the-environment/
https://www.bloomberg.com/news/articles/2014-07-14/whites-account-for-the-entire-jump-in-heroin-deaths
https://antv.alipay.com/zh-cn/vis/chart/k-chart.html
https://mp.weixin.qq.com/s/watt4veiF3NVw2cBpF3f8w
https://pdfs.semanticscholar.org/2f40/fd06bc9fd00a27437e14ed171e96e4fd9326.pdf