Pandas - 数据结构简介

  • 简述

    Pandas 处理以下三种数据结构 -
    • 级数(Series)
    • 数据框(DataFrame)
    • 控制板(Panel)
    这些数据结构建立在 Numpy 数组之上,这意味着它们速度很快。
  • 尺寸和说明

    考虑这些数据结构的最佳方式是,高维数据结构是其低维数据结构的容器。比如DataFrame是Series的容器,Panel是DataFrame的容器。
    数据结构 维度 描述
    Series 1 一维标记的同构数组,大小不可变。
    数据框(DataFrame) 2 具有潜在异构类型列的通用 2D 标记、大小可变的表格结构。
    控制板(Panel) 3 通用 3D 标记、大小可变的数组。
    构建和处理二维或更多维数组是一项繁琐的任务,用户在编写函数时需要考虑数据集的方向。但是使用 Pandas 数据结构,减少了用户的脑力劳动。
    例如,对于表格数据(DataFrame),考虑index(行)和columns而不是轴 0 和轴 1。

    可变性

    所有 Pandas 数据结构的值都是可变的(可以更改),除了 Series 之外的所有数据结构的大小都是可变的。系列是大小不可变的。
    注意− DataFrame 应用广泛,是最重要的数据结构之一。面板使用少得多。
  • Series

    系列是具有同质数据的一维数组结构。例如,以下系列是整数 10、23、56、……的集合
    10 23 56 17 52 61 73 90 26 72

    关键点

    • 同质数据
    • 大小不可变
    • 数据可变的值
  • 数据框(DataFrame)

    DataFrame 是一个包含异构数据的二维数组。例如,
    Name Age Gender Rating
    Steve 32 Male 3.45
    Lia 28 Female 4.6
    Vin 45 Male 3.9
    Katie 38 Female 2.78
    该表表示组织的销售团队的数据及其整体绩效评级。数据以行和列的形式表示。每列代表一个属性,每一行代表一个人。
  • 列的数据类型

    四列的数据类型如下 -
    类型
    Name String
    Age Integer
    Gender String
    Rating Float

    关键点

    • 异构数据
    • 大小可变
    • 数据可变
  • 控制板(Panel)

    Panel 是一种具有异构数据的三维数据结构。很难用图形表示面板。但是面板可以说明为 DataFrame 的容器。

    关键点

    • 异构数据
    • 大小可变
    • 数据可变