Pandas 数据结构 - DataFrame

DataFrame 是 Pandas 中的另一个核心数据结构，类似于一个二维的表格或数据库中的数据表。

DataFrame 是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔型值）。

DataFrame 既有行索引也有列索引，它可以被看做由 Series 组成的字典（共同用一个索引）。

DataFrame 提供了各种功能来进行数据访问、筛选、分割、合并、重塑、聚合以及转换等操作。

DataFrame 是一个非常灵活且强大的数据结构，广泛用于数据分析、清洗、转换、可视化等任务。

DataFrame 特点：

二维结构： DataFrame 是一个二维表格，可以被看作是一个 Excel 电子表格或 SQL 表，具有行和列。可以将其视为多个 Series 对象组成的字典。
列的数据类型： 不同的列可以包含不同的数据类型，例如整数、浮点数、字符串或 Python 对象等。
索引：DataFrame 可以拥有行索引和列索引，类似于 Excel 中的行号和列标。
大小可变：可以添加和删除列，类似于 Python 中的字典。
自动对齐：在进行算术运算或数据对齐操作时，DataFrame 会自动对齐索引。
处理缺失数据：DataFrame 可以包含缺失数据，Pandas 使用 NaN（Not a Number）来表示。
数据操作：支持数据切片、索引、子集分割等操作。
时间序列支持：DataFrame 对时间序列数据有特别的支持，可以轻松地进行时间数据的切片、索引和操作。
丰富的数据访问功能：通过 .loc、.iloc 和 .query() 方法，可以灵活地访问和筛选数据。
灵活的数据处理功能：包括数据合并、重塑、透视、分组和聚合等。
数据可视化：虽然 DataFrame 本身不是可视化工具，但它可以与 Matplotlib 或 Seaborn 等可视化库结合使用，进行数据可视化。
高效的数据输入输出：可以方便地读取和写入数据，支持多种格式，如 CSV、Excel、SQL 数据库和 HDF5 格式。
描述性统计：提供了一系列方法来计算描述性统计数据，如 .describe()、.mean()、.sum() 等。
灵活的数据对齐和集成：可以轻松地与其他 DataFrame 或 Series 对象进行合并、连接或更新操作。
转换功能：可以对数据集中的值进行转换，例如使用 .apply() 方法应用自定义函数。
滚动窗口和时间序列分析：支持对数据集进行滚动窗口统计和时间序列分析。

DataFrame 构造方法如下：

pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)

参数说明：

data：DataFrame 的数据部分，可以是字典、二维数组、Series、DataFrame 或其他可转换为 DataFrame 的对象。如果不提供此参数，则创建一个空的 DataFrame。
index：DataFrame 的行索引，用于标识每行数据。可以是列表、数组、索引对象等。如果不提供此参数，则创建一个默认的整数索引。
columns：DataFrame 的列索引，用于标识每列数据。可以是列表、数组、索引对象等。如果不提供此参数，则创建一个默认的整数索引。
dtype：指定 DataFrame 的数据类型。可以是 NumPy 的数据类型，例如 np.int64、np.float64 等。如果不提供此参数，则根据数据自动推断数据类型。
copy：是否复制数据。默认为 False，表示不复制数据。如果设置为 True，则复制输入的数据。

Pandas DataFrame 是一个二维的数组结构，类似二维数组。

实例 - 使用列表创建

import pandas as pd

data = [['Google', 10], ['Runoob', 12], ['Wiki', 13]]

# 创建DataFrame
df = pd.DataFrame(data, columns=['Site', 'Age'])

# 使用astype方法设置每列的数据类型
df['Site'] = df['Site'].astype(str)
df['Age'] = df['Age'].astype(float)

print(df)

也可以使用字典来创建：

实例 - 使用字典创建

import pandas as pd

data = {'Site':['Google', 'Runoob', 'Wiki'], 'Age':[10, 12, 13]}

df = pd.DataFrame(data)

print (df)

输出结果如下：

以下实例使用 ndarrays 创建，ndarray 的长度必须相同，如果传递了 index，则索引的长度应等于数组的长度。如果没有传递索引，则默认情况下，索引将是range(n)，其中n是数组长度。

ndarrays 可以参考：NumPy Ndarray 对象

实例 - 使用 ndarrays 创建

import numpy as np
import pandas as pd

# 创建一个包含网站和年龄的二维ndarray
ndarray_data = np.array([
['Google', 10],
['Runoob', 12],
['Wiki', 13]
])

# 使用DataFrame构造函数创建数据帧
df = pd.DataFrame(ndarray_data, columns=['Site', 'Age'])

# 打印数据帧
print(df)

输出结果如下：

从以上输出结果可以知道， DataFrame 数据类型一个表格，包含 rows（行）和 columns（列）：

还可以使用字典（key/value），其中字典的 key 为列名:

实例 - 使用字典创建

import pandas as pd

data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]

df = pd.DataFrame(data)

print (df)

输出结果为：

   a   b     c
0  1   2   NaN
1  5  10  20.0

没有对应的部分数据为 NaN。

Pandas 可以使用 loc 属性返回指定行的数据，如果没有设置索引，第一行索引为 0，第二行索引为 1，以此类推：

实例

import pandas as pd

data = {
"calories": [420, 380, 390],
"duration": [50, 40, 45]
}

# 数据载入到 DataFrame 对象
df = pd.DataFrame(data)

# 返回第一行
print(df.loc[0])
# 返回第二行
print(df.loc[1])

输出结果如下：

calories    420
duration     50
Name: 0, dtype: int64
calories    380
duration     40
Name: 1, dtype: int64

注意：返回结果其实就是一个 Pandas Series 数据。

也可以返回多行数据，使用 [[ ... ]] 格式，... 为各行的索引，以逗号隔开：

实例

import pandas as pd

data = {
"calories": [420, 380, 390],
"duration": [50, 40, 45]
}

# 数据载入到 DataFrame 对象
df = pd.DataFrame(data)

# 返回第一行和第二行
print(df.loc[[0, 1]])

输出结果为：

   calories  duration
0       420        50
1       380        40

注意：返回结果其实就是一个 Pandas DataFrame 数据。

我们可以指定索引值，如下实例：

实例

import pandas as pd

data = {
"calories": [420, 380, 390],
"duration": [50, 40, 45]
}

df = pd.DataFrame(data, index = ["day1", "day2", "day3"])

print(df)

输出结果为：

      calories  duration
day1       420        50
day2       380        40
day3       390        45

Pandas 可以使用 loc 属性返回指定索引对应到某一行：

实例

import pandas as pd

data = {
"calories": [420, 380, 390],
"duration": [50, 40, 45]
}

df = pd.DataFrame(data, index = ["day1", "day2", "day3"])

# 指定索引
print(df.loc["day2"])

输出结果为：

calories    380
duration     40
Name: day2, dtype: int64

DataFrame 方法

DataFrame 的常用操作和方法如下表所示：

方法名称	功能描述
`head(n)`	返回 DataFrame 的前 n 行数据（默认前 5 行）
`tail(n)`	返回 DataFrame 的后 n 行数据（默认后 5 行）
`info()`	显示 DataFrame 的简要信息，包括列名、数据类型、非空值数量等
`describe()`	返回 DataFrame 数值列的统计信息，如均值、标准差、最小值等
`shape`	返回 DataFrame 的行数和列数（行数, 列数）
`columns`	返回 DataFrame 的所有列名
`index`	返回 DataFrame 的行索引
`dtypes`	返回每一列的数值数据类型
`sort_values(by)`	按照指定列排序
`sort_index()`	按行索引排序
`dropna()`	删除含有缺失值（NaN）的行或列
`fillna(value)`	用指定的值填充缺失值
`isnull()`	判断缺失值，返回一个布尔值 DataFrame
`notnull()`	判断非缺失值，返回一个布尔值 DataFrame
`loc[]`	按标签索引选择数据
`iloc[]`	按位置索引选择数据
`at[]`	访问 DataFrame 中单个元素（比 `loc[]` 更高效）
`iat[]`	访问 DataFrame 中单个元素（比 `iloc[]` 更高效）
`apply(func)`	对 DataFrame 或 Series 应用一个函数
`applymap(func)`	对 DataFrame 的每个元素应用函数（仅对 DataFrame）
`groupby(by)`	分组操作，用于按某一列分组进行汇总统计
`pivot_table()`	创建透视表
`merge()`	合并多个 DataFrame（类似 SQL 的 JOIN 操作）
`concat()`	按行或按列连接多个 DataFrame
`to_csv()`	将 DataFrame 导出为 CSV 文件
`to_excel()`	将 DataFrame 导出为 Excel 文件
`to_json()`	将 DataFrame 导出为 JSON 格式
`to_sql()`	将 DataFrame 导出为 SQL 数据库
`query()`	使用 SQL 风格的语法查询 DataFrame
`duplicated()`	返回布尔值 DataFrame，指示每行是否是重复的
`drop_duplicates()`	删除重复的行
`set_index()`	设置 DataFrame 的索引
`reset_index()`	重置 DataFrame 的索引
`transpose()`	转置 DataFrame（行列交换）

实例

import pandas as pd

# 创建 DataFrame
data = {
'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 30, 35, 40],
'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']
}
df = pd.DataFrame(data)

# 查看前两行数据
print(df.head(2))

# 查看 DataFrame 的基本信息
print(df.info())

# 获取描述统计信息
print(df.describe())

# 按年龄排序
df_sorted = df.sort_values(by='Age', ascending=False)
print(df_sorted)

# 选择指定列
print(df[['Name', 'Age']])

# 按索引选择行
print(df.iloc[1:3]) # 选择第二到第三行（按位置）

# 按标签选择行
print(df.loc[1:2]) # 选择第二到第三行（按标签）

# 计算分组统计（按城市分组，计算平均年龄）
print(df.groupby('City')['Age'].mean())

# 处理缺失值（填充缺失值）
df['Age'] = df['Age'].fillna(30)

# 导出为 CSV 文件
df.to_csv('output.csv', index=False)

输出结果为：

# 查看前两行数据
     Name  Age         City
0   Alice   25     New York
1     Bob   30  Los Angeles

# 查看 DataFrame 的基本信息
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Name    4 non-null      object 
 1   Age     4 non-null      int64  
 2   City    4 non-null      object 
dtypes: int64(1), object(2)
memory usage: 148.0+ bytes

# 获取描述统计信息
             Age
count   4.000000
mean   32.500000
std     6.454972
min    25.000000
25%    27.500000
50%    32.500000
75%    37.500000
max    40.000000

# 按年龄排序
      Name  Age         City
3    David   40     Houston
2  Charlie   35      Chicago
1      Bob   30  Los Angeles
0    Alice   25     New York

# 按标签选择行
      Name  Age         City
1     Bob   30  Los Angeles
2  Charlie   35      Chicago

# 计算分组统计（按城市分组，计算平均年龄）
City
Chicago        35.0
Houston        40.0
Los Angeles    30.0
New York       25.0
Name: Age, dtype: float64

实例

import pandas as pd

# 通过字典创建 DataFrame
df = pd.DataFrame({'Column1': [1, 2, 3], 'Column2': [4, 5, 6]})

从列表的列表创建：外层列表代表行，内层列表代表列。

# 通过列表的列表创建 DataFrame

实例

df = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]],
columns=['Column1', 'Column2', 'Column3'])

从 NumPy 数组创建：提供一个二维 NumPy 数组。

实例

import numpy as np

# 通过 NumPy 数组创建 DataFrame
df = pd.DataFrame(np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]))

从 Series 创建 DataFrame：通过 pd.Series() 创建。

实例

# 从 Series 创建 DataFrame
s1 = pd.Series(['Alice', 'Bob', 'Charlie'])
s2 = pd.Series([25, 30, 35])
s3 = pd.Series(['New York', 'Los Angeles', 'Chicago'])
df = pd.DataFrame({'Name': s1, 'Age': s2, 'City': s3})

DataFrame 的属性和方法

DataFrame 对象有许多属性和方法，用于数据操作、索引和处理，例如：shape、columns、index、head()、tail()、info()、describe()、mean()、sum() 等。

实例

# DataFrame 的属性和方法
print(df.shape) # 形状
print(df.columns) # 列名
print(df.index) # 索引
print(df.head()) # 前几行数据，默认是前 5 行
print(df.tail()) # 后几行数据，默认是后 5 行
print(df.info()) # 数据信息
print(df.describe())# 描述统计信息
print(df.mean()) # 求平均值
print(df.sum()) # 求和

访问 DataFrame 元素

访问列：使用列名作为属性或通过 .loc[]、.iloc[] 访问，也可以使用标签或位置索引。。

实例

# 通过列名访问
print(df['Column1'])

# 通过属性访问
print(df.Name)

# 通过 .loc[] 访问
print(df.loc[:, 'Column1'])

# 通过 .iloc[] 访问
print(df.iloc[:, 0]) # 假设 'Column1' 是第一列

# 访问单个元素
print(df['Name'][0])

访问行：使用行的标签和 .loc[] 访问。

实例

# 通过行标签访问
print(df.loc[0, 'Column1'])

修改 DataFrame

修改列数据：直接对列进行赋值。

df['Column1'] = [10, 11, 12]

添加新列：给新列赋值。

df['NewColumn'] = [100, 200, 300]

添加新行：使用 loc、append 或 concat 方法。

实例

# 使用 loc 为特定索引添加新行
df.loc[3] = [13, 14, 15, 16]

# 使用 append 添加新行到末尾
new_row = {'Column1': 13, 'Column2': 14, 'NewColumn': 16}
df = df.append(new_row, ignore_index=True)

注意：append() 方法在 pandas 版本 1.4.0 中已经被标记为弃用，并将在未来的版本中被移除，官方推荐使用 concat() 作为替代方法来进行数据的合并操作。

concat() 方法用于合并两个或多个 DataFrame，当你想要添加一行到另一个 DataFrame 时，可以将新行作为一个新的 DataFrame，然后使用 concat()：

实例

# 使用concat添加新行
new_row = pd.DataFrame([[4, 7]], columns=['A', 'B']) # 创建一个只包含新行的DataFrame
df = pd.concat([df, new_row], ignore_index=True) # 将新行添加到原始DataFrame

print(df)

删除 DataFrame 元素

删除列：使用 drop 方法。

df_dropped = df.drop('Column1', axis=1)

删除行：同样使用 drop 方法。

df_dropped = df.drop(0)  # 删除索引为 0 的行

DataFrame 的统计分析

描述性统计：使用 .describe() 查看数值列的统计摘要。

df.describe()

计算统计数据：使用聚合函数如 .sum()、.mean()、.max() 等。

df['Column1'].sum()
df.mean()

DataFrame 的索引操作

重置索引：使用 .reset_index()。

df_reset = df.reset_index(drop=True)

设置索引：使用 .set_index()。

df_set = df.set_index('Column1')

DataFrame 的布尔索引

使用布尔表达式：根据条件过滤 DataFrame。

df[df['Column1'] > 2]

DataFrame 的数据类型

查看数据类型：使用 dtypes 属性。

df.dtypes

转换数据类型：使用 astype 方法。

df['Column1'] = df['Column1'].astype('float64')

DataFrame 的合并与分割

合并：使用 concat 或 merge 方法。

# 纵向合并
pd.concat([df1, df2], ignore_index=True)

# 横向合并
pd.merge(df1, df2, on='Column1')

分割：使用 pivot、melt 或自定义函数。

# 长格式转宽格式
df_pivot = df.pivot(index='Column1', columns='Column2', values='Column3')

# 宽格式转长格式
df_melt = df.melt(id_vars='Column1', value_vars=['Column2', 'Column3'])

索引和切片

DataFrame 支持对行和列进行索引和切片操作。

实例

# 索引和切片
print(df[['Name', 'Age']]) # 提取多列
print(df[1:3]) # 切片行
print(df.loc[:, 'Name']) # 提取单列
print(df.loc[1:2, ['Name', 'Age']]) # 标签索引提取指定行列
print(df.iloc[:, 1:]) # 位置索引提取指定列

注意事项

DataFrame 是一种灵活的数据结构，可以容纳不同数据类型的列。
列名和行索引可以是字符串、整数等。
DataFrame 可以通过多种方式进行数据选择、过滤、修改和分析。
通过对 DataFrame 的操作，可以进行数据清洗、转换、分析和可视化等工作。

535

这里教程没有写如何获取 dataframe 中其中几列，我来补充一下。

当处理数据时候 series 较多而我们其中只关注其中一些特定的列时候可以使用。

假设：

data = {
  "mango": [420, 380, 390],
  "apple": [50, 40, 45],
  "pear": [1, 2, 3],
  "banana": [23, 45,56]
}
df = pd.DataFrame(data)

假设我们只关注 apple 和 banana 的数据时，可以使用以下方法：

print(df[["apple","banana"]])

Hins4年前 (2021-09-28)

import pandas as pd
# numpy
data1 = {'C': ['Google', 'Runoob'], 'A': [10, 12], 'B': [93.5, 89]}
df1 = pd.DataFrame(data1)
print(df1)

# dict
data2 = [{'C': 'Google', 'A': 10, 'B': 93.5}, {'C': 'Runoob', 'A': 12, 'B': 89}]
df2 = pd.DataFrame(data2)
print(df2)

运行结果：

        C   A     B
0  Google  10  93.5
1  Runoob  12  89.0
        C   A     B
0  Google  10  93.5
1  Runoob  12  89.0

当运用 numpy 或者字典创建时，是按关键词顺序（'A'<'B'<'C'）输出的，而不是按照书写的先后顺序。

杍荷锦逍昶若一4年前 (2022-02-17)

补充一下，如何先添加新列。添加一新列，名字为sum，每行的总和。

data = {
  "mango": [420, 380, 390],
  "apple": [50, 40, 45],
  "pear": [1, 2, 3],
  "banana": [23, 45,56]
}
df = pd.DataFrame(data)
df['sum']=df['mango']+df['apple']+df['pear']+df['banana']

或者：

df['sum']=df.mango+df.apple+df.pear+df.banana

都是添加一列数据。

雪梨4年前 (2022-05-16)

补充一下，如何修改某一列特定几行元素的值：

data = {
  "mango": [420, 380, 390],
  "apple": [50, 40, 45],
  "pear": [1, 2, 3],
  "banana": [23, 45,56],
  "type":['Truck','Van','Tram']
}
df = pd.DataFrame(data)

print(df)

# 修改某一列特定几行元素的值
array = df.type.isin(['Truck','Van','Tram'])
df.loc[array,'type'] = 'Car'

print(df)

 mango  apple  pear  banana   type
0    420     50     1      23  Truck
1    380     40     2      45    Van
2    390     45     3      56   Tram
 mango  apple  pear  banana type
0    420     50     1      23  Car
1    380     40     2      45  Car
2    390     45     3      56  Car

epoch3年前 (2022-11-01)

菜鸟教程 -- 学的不仅是技术，更是梦想！

参考手册

Pandas 数据结构 - DataFrame

实例 - 使用列表创建

实例 - 使用字典创建

实例 - 使用 ndarrays 创建

实例 - 使用字典创建

实例

实例

实例

实例

DataFrame 方法

实例

更多 DataFrame 说明

创建 DataFrame

实例

实例

实例

实例

DataFrame 的属性和方法

实例

访问 DataFrame 元素

实例

实例

修改 DataFrame

实例

实例

删除 DataFrame 元素

DataFrame 的统计分析

DataFrame 的索引操作

DataFrame 的布尔索引

DataFrame 的数据类型

DataFrame 的合并与分割

索引和切片

实例

注意事项

4 篇笔记写笔记

点我分享笔记

菜鸟教程 -- 学的不仅是技术，更是梦想！

参考手册

Pandas 数据结构 - DataFrame

实例 - 使用列表创建

实例 - 使用字典创建

实例 - 使用 ndarrays 创建

实例 - 使用字典创建

实例

实例

实例

实例

DataFrame 方法

实例

更多 DataFrame 说明

创建 DataFrame

实例

实例

实例

实例

DataFrame 的属性和方法

实例

访问 DataFrame 元素

实例

实例

修改 DataFrame

实例

实例

删除 DataFrame 元素

DataFrame 的统计分析

DataFrame 的索引操作

DataFrame 的布尔索引

DataFrame 的数据类型

DataFrame 的合并与分割

索引和切片

实例

注意事项

4 篇笔记 写笔记

点我分享笔记

微信关注

4 篇笔记写笔记