pandas 笔记crosstab

发布于:2024-08-17 ⋅ 阅读:(97) ⋅ 点赞:(0)

用来计算两个(或更多)因子的交叉表(即频率表、列联表或透视表)。这个功能特别适用于统计分析和数据探索阶段,帮助理解不同变量之间的关系

1 基本用法

pd.crosstab(index, 
    columns, 
    values=None, 
    rownames=None, 
    colnames=None, 
    aggfunc=None, 
    margins=False, 
    margins_name='All', 
    dropna=True, 
    normalize=False)

2 参数说明

index 用作表的行标签的数组、序列或数组列表
columns 用作表的列标签的数组、序列或数组列表
values 可选,数组或序列,当使用 aggfunc 不为空时,这个参数用来计算聚合值
rownames 用于结果DataFrame的行标签的名称列表
colnames 用于结果DataFrame的列标签的名称列表
aggfunc 可选,用于聚合的函数或函数列表。如果提供了 values,则需要这个参数
margins 布尔值,是否添加行/列边际小计或总计
margins_name 边际的名称,默认是 'All
dropna 布尔值,是否删除所有条目都为NaN的列
normalize 布尔值或 {'all', 'index', 'columns'},用于规范化频率表的总和

3 举例

3.1 基本例子

假设有一个关于人口的数据集,我们有性别和职业两个列

import pandas as pd

data = {
    'Sport': ['Soccer', 'Soccer', 'Tennis', 'Soccer', 'Tennis', 'Basketball', 'Basketball'],
    'Age Group': ['Youth', 'Adult', 'Adult', 'Youth', 'Youth', 'Adult', 'Youth']
}

df = pd.DataFrame(data)
df

现在我们想要查看不同职业中性别的分布情况:

ct = pd.crosstab(index=df['Age Group'], columns=df['Sport'])
ct

3.2 聚合函数 values,aggfunc

如果你有一个包含多个相同记录的数据集,并且你想要计算某些数值的总和或平均值,你可以使用 valuesaggfunc 参数

data = pd.DataFrame({
    'Gender': ['Male', 'Female', 'Female', 'Male', 'Female', 'Male', 'Male'],
    'Occupation': ['Engineer', 'Doctor', 'Engineer', 'Artist', 'Doctor', 'Artist', 'Engineer'],
    'Salary': [1000, 1500, 900, 1100, 1700, 1200, 1300]
})
data

不用聚合函数的情况:

pd.crosstab(data['Gender'], data['Occupation'])

使用聚合函数的情况

pd.crosstab(data['Gender'], data['Occupation'], values=data['Salary'], aggfunc='mean')

3.3 margins

使用 margins=True 可以快速获得每一行和每一列的总计,以及整个表的总计。

pd.crosstab(data['Gender'], 
    data['Occupation'], 
    values=data['Salary'], 
    aggfunc='mean', 
    margins=True)

3.4 normalize

用于标准化交叉表的数据

  • False (默认): 不进行任何标准化,显示原始的频数数据。
  • True: 将所有的频数转换为表中所有元素的比例。所有表格中的数值加起来等于 1。
  • 'all': 同 True,将所有频数转换为表中所有元素的比例。
  • 'index': 按行进行标准化。每一行的数值将会除以该行的总和,使得每一行的总和为 1。
  • 'columns': 按列进行标准化。每一列的数值将会除以该列的总和,使得每一列的总和为 1。
pd.crosstab(data['Gender'], 
            data['Occupation'], 
            values=data['Salary'], 
            aggfunc='mean', 
            normalize='columns',
            margins=True)

pd.crosstab(data['Gender'], `
            data['Occupation'], 
            values=data['Salary'], 
            aggfunc='mean', 
            normalize='columns',
            margins=True)

 

pd.crosstab(data['Gender'], 
            data['Occupation'], 
            values=data['Salary'], 
            aggfunc='mean', 
            normalize='index',
            margins=True)


网站公告

今日签到

点亮在社区的每一天
去签到