数据读取及分隔方法

发布于:2024-05-24 ⋅ 阅读:(142) ⋅ 点赞:(0)

读取数据

1. 读取文本文件

读取文本文件:可以使用内置的open()函数来打开文本文件,并使用read()或readlines()方法读取文件内容。

# 读取整个文本文件内容
with open('file.txt', 'r') as file:
    data = file.read()
    print(data)

# 逐行读取文本文件内容
with open('file.txt', 'r') as file:
    for line in file:
        print(line)

2.pandas库读取数据

使用pandas库读取数据:pandas库提供了各种用于读取不同数据格式的函数,如read_csv()、read_excel()等。

import pandas as pd

# 从CSV文件中读取数据
df = pd.read_csv('data.csv')
print(df)

# 从Excel文件中读取数据
df = pd.read_excel('data.xlsx')
print(df)

3.读取JSON文件

读取JSON文件:可以使用内置的json库来读取JSON格式的文件。

import json

# 读取JSON文件
with open('data.json') as file:
    data = json.load(file)
    print(data)

数据分隔方法

1.split()

字符串的split()方法:这是最常用的数据分隔方法,可以根据指定的分隔符将一个字符串拆分成子串,并返回一个存储子串的列表。

text = "apple,banana,orange"
fruits = text.split(',')
print(fruits)  # 输出:['apple', 'banana', 'orange']

2.re.split()

re模块的split()方法:re模块(正则表达式模块)提供了一个split()方法,可以使用正则表达式来进行更灵活的分隔。

import re
text = "apple   banana orange"
words = re.split(r'\s+', text)
print(words)  # 输出:['apple', 'banana', 'orange']

3.splitlines()

是一个字符串方法,用于将字符串按行拆分成一个列表。

.splitlines() 是 Python 字符串对象的一个方法,用于按行拆分字符串,并返回包含每行作为元素的列表。这个方法在处理包含换行符的多行字符串时特别有用。具体来说,.splitlines() 方法根据字符串中的换行符(\n)、回车符(\r)或者回车后跟随换行符(\r\n)来分隔字符串。

text = "apple\nbanana\norange"
lines = text.splitlines()
print(lines)  # 输出:['apple', 'banana', 'orange']

在上述示例中,.splitlines() 方法将文本字符串按行拆分,每行作为列表的一个元素,并将结果存储在名为 lines 的列表中。

text = "apple,banana,orange\ngrape,kiwi,mango\nstrawberry,blueberry,raspberry"
lines = text.splitlines()
print(lines)
#['apple,banana,orange', 'grape,kiwi,mango', 'strawberry,blueberry,raspberry']

data = [line.split(',') for line in lines]
print(data)
#[['apple', 'banana', 'orange'], ['grape', 'kiwi', 'mango'], ['strawberry', 'blueberry', 'raspberry']]

import pandas as pd
df = pd.DataFrame(data)
print(df)

            0          1          2
0       apple     banana     orange
1       grape       kiwi      mango
2  strawberry  blueberry  raspberry


字符串的partition()方法:这是用于根据指定的分隔符将字符串拆分成三部分的方法,返回一个包含三个元素的元组,第一个是分隔符前的部分,第二个是分隔符本身,第三个是分隔符后的部分。

```python
text = "apple=banana=orange"
parts = text.partition('=')
print(parts)  # 输出:('apple', '=', 'banana=orange')

网站公告

今日签到

点亮在社区的每一天
去签到