数据预处理
创建一个人工数据集,并存储在csv(逗号分隔)文件
import os
os.makedirs(os.path.join('..','data'),exist_ok=True)
data_file=os.path.join('..','data','house_tiny.csv')
with open(data_file,'w') as f:
f.write('NumRooms,Alley,Price\n') #列名
f.write('NA,Pave,127500\n') #每行表示一个数据样本
f.write('2,NA,106000\n')
f.write('4,NA,178100\n')
f.write('NA,NA,140000\n')
import pandas as pd
data=pd.read_csv(data_file)
print(data)
NumRooms Alley Price
0 NaN Pave 127500
1 2.0 NaN 106000
2 4.0 NaN 178100
3 NaN NaN 140000
为处理缺失值,典型方法包含插值和删除,这里采用插值的方法
inputs,outputs=data.iloc[:,0:2],data.iloc[:,2] #其中使用iloc即index location进行元素定位
inputs=inputs.fillna(inputs.mean(numeric_only=True)) #将缺失值填充为原先值的均值
print(inputs)
NumRooms Alley
0 3.0 Pave
1 2.0 NaN
2 4.0 NaN
3 3.0 NaN
inputs=pd.get_dummies(inputs,dummy_na=True).astype(int)
print(inputs)
NumRooms Alley_Pave Alley_nan
0 3 1 0
1 2 0 1
2 4 0 1
3 3 0 1
import torch
X,y=torch.tensor(inputs.values),torch.tensor(outputs.values)
X,y
(tensor([[3, 1, 0],
[2, 0, 1],
[4, 0, 1],
[3, 0, 1]]),
tensor([127500, 106000, 178100, 140000]))
转换为NumPy张量
a=torch.tensor([3.5])
a,a.item(),float(a),int(a)
(tensor([3.5000]), 3.5, 3.5, 3)