Seaborn - 观测分布

  • 简述

    在我们在前一章处理的分类散点图中,该方法在它可以提供的关于每个类别内的值分布的信息方面变得有限。现在,更进一步,让我们看看什么可以帮助我们在类别中进行比较。
  • 箱线图

    Boxplot是一种通过四分位数可视化数据分布的便捷方式。
    箱线图通常具有从称为胡须的箱延伸的垂直线。这些胡须表示上四分位数和下四分位数之外的可变性,因此箱线图也被称为box-and-whisker情节和box-and-whisker 图表。数据中的任何异常值都被绘制为单独的点。

    例子

    
    import pandas as pd
    import seaborn as sb
    from matplotlib import pyplot as plt
    df = sb.load_dataset('iris')
    sb.swarmplot(x = "species", y = "petal_length", data = df)
    plt.show()
    

    输出

    压缩
    图上的点表示异常值。
  • 小提琴图

    小提琴图是箱线图与核密度估计的组合。因此,这些图更容易分析和理解数据的分布。
    让我们使用调用的提示数据集来了解更多关于小提琴图的信息。该数据集包含与餐厅客户提供的提示相关的信息。

    例子

    
    import pandas as pd
    import seaborn as sb
    from matplotlib import pyplot as plt
    df = sb.load_dataset('tips')
    sb.violinplot(x = "day", y = "total_bill", data=df)
    plt.show()
    

    输出

    阶段
    箱线图中的四分位数和胡须值显示在小提琴内部。由于小提琴图使用 KDE,小提琴的较宽部分表示较高的密度,较窄的区域表示相对较低的密度。箱线图中的四分位数范围和 kde 中的较高密度部分落在每个小提琴图类别的同一区域。
    上图显示了 total_bill 在一周中的四天的分布。但是,除此之外,如果我们想了解分布在性别方面的表现,让我们在下面的示例中进行探索。

    例子

    
    import pandas as pd
    import seaborn as sb
    from matplotlib import pyplot as plt
    df = sb.load_dataset('tips')
    sb.violinplot(x = "day", y = "total_bill",hue = 'sex', data = df)
    plt.show()
    

    输出

    区别
    现在我们可以清楚地看到男性和女性之间的消费行为。我们可以很容易地说,通过看情节,男人比女人赚更多的钱。
    而且,如果色调变量只有两个类别,我们可以通过在给定日期将每把小提琴分成两把而不是两把小提琴来美化情节。小提琴的任何一个部分都引用了色调变量中的每个类。

    例子

    
    import pandas as pd
    import seaborn as sb
    from matplotlib import pyplot as plt
    df = sb.load_dataset('tips')
    sb.violinplot(x = "day", y="total_bill",hue = 'sex', data = df)
    plt.show()
    

    输出

    多级