Polars简介

发布于:2024-10-08 ⋅ 阅读:(147) ⋅ 点赞:(0)

1. Polars基础教程

关键概念

  • Expression API:用于快速灵活的分析。
  • 并行计算:易于实现。
  • 惰性模式查询优化:自动进行。
  • 流处理:处理超过内存大小的数据集。
    导入Polars
import polars as pl

配置选项设置

pl.Config.settblrows(6)  # 设置打印DataFrame的行数

加载数据
Polars支持多种数据格式,如CSV、Parquet、Arrow、JSON、Excel和数据库连接。

csvfile = "../data/titanic.csv"
df = pl.readcsv(csvfile)
df.head(3)

2. Polars库介绍

Polars是一个高性能的DataFrame库,用Rust编写,提供了以下特性:

  • 高性能:通过Rust编写和矢量化列式处理实现。
  • 数据读写支持:支持常见数据文件和云存储。
  • 并行处理:自动利用所有可用CPU核心。
  • GPU支持:可选在NVIDIA GPUs上运行查询。
    安装命令
pip3 install 'polars[all]'

3. 数据读写操作

DataFrame示例

df = pl.DataFrame({
    "idx": [1, 2, 3, 4],
    "name": ["张三", "李四", "王五", "赵六"],
    "birthday": [
        datetime(2009, 5, 1),
        datetime(2005, 10, 15),
        datetime(2000, 12, 31),
        datetime(1995, 6, 15),
    ],
    "gender": ["男", "男", "男", "女"],
    "bio": ["好好学习,天天向上", "泰难了", "学习有毛用", "躺平ing"],
})

存储和读取数据

df.writecsv("data.csv")
df.writeexcel("data.xlsx")
df.writejson("data.json")
df.writeparquet("data.parquet")
df_csv = pl.readcsv("data.csv")

4. Expressions

Polars的核心部分是Expressions,提供了以下模块结构:

  • select
  • filter
  • groupby
  • withcolumns
    选择列
print(df.select(pl.col("")))
print(df.select(pl.all()))
print(df.select(pl.col('float','date')))

网站公告

今日签到

点亮在社区的每一天
去签到