Python - 数据科学之 P 值

  • 简述

    p 值与假设的强度有关。我们基于一些统计模型建立假设,并使用 p 值比较模型的有效性。获得 p 值的一种方法是使用 T 检验。
    这是对零假设的双边检验,即独立观察样本“a”的期望值(平均值)等于给定的总体平均值,popmean. 让我们考虑下面的例子。
    
    from scipy import stats
    rvs = stats.norm.rvs(loc = 5, scale = 10, size = (50,2))
    print stats.ttest_1samp(rvs,5.0)
    
    上述程序将生成以下输出。
    
    Ttest_1sampResult(statistic = array([-1.40184894, 2.70158009]),
    pvalue = array([ 0.16726344, 0.00945234]))
    

    比较两个样本

    在下面的例子中,有两个样本,可以来自相同的分布,也可以来自不同的分布,我们要测试这些样本是否具有相同的统计特性。
    ttest_ind− 计算两个独立分数样本均值的 T 检验。这是对两个独立样本具有相同平均值(预期)值的零假设的双边检验。此测试假定默认情况下总体具有相同的方差。
    如果我们观察来自相同或不同总体的两个独立样本,我们可以使用此测试。让我们考虑下面的例子。
    
    from scipy import stats
    rvs1 = stats.norm.rvs(loc = 5,scale = 10,size = 500)
    rvs2 = stats.norm.rvs(loc = 5,scale = 10,size = 500)
    print stats.ttest_ind(rvs1,rvs2)
    
    上述程序将生成以下输出。
    
    Ttest_indResult(statistic = -0.67406312233650278, pvalue = 0.50042727502272966)
    
    您可以使用长度相同但平均值不同的新数组进行测试。使用不同的值loc并进行相同的测试。