spark

发布于:2025-05-08 ⋅ 阅读:(25) ⋅ 点赞:(0)

import numpy as np

import pandas as pd 

df = pd.read_csv('双十一淘宝美妆数据.csv')

df.head() #查看数居前五行

 

  

 

 

Data columns (total 7 columns):

 # Column Non-Null Count Dtype  

--- ------ -------------- -----  

 0 update_time 27598 non-null object 

 1 id 27598 non-null object 

 2 title 27598 non-null object 

 3 price 27598 non-null float64

 4 sale_count 25244 non-null float64

 5 comment_count 25244 non-null float64

 6 店名 27598 non-null object 

dtypes: float64(3), object(4)

memory usage: 1.1+ MB

 

 

 

 

 

update_time id title price sale_count comment_count 店名

27507 2016/11/5 A535642405757 SK-II【11-11】全新大眼眼霜skii放大双眼眼部修护精华紧致 590.0 NaN NaN SKII

27508 2016/11/5 A535911851408 SK-II 11-11预售skii大眼眼霜sk2眼部修护精华霜淡化黑眼圈 590.0 NaN NaN SKII

27509 2016/11/5 A537027211850 SK-II 11-11预售skii前男友护肤面膜sk2精华面膜贴密集修护 1740.0 NaN NaN SKII

27510 2016/11/5 A538212160126 SK-II 11-11预售skiisk2神仙水护肤精华油面部套装滋润补水密集修 1190.0 NaN NaN SKII

27511 2016/11/5 A538677326709 SK-II【11-11】神仙水护肤精华油面部套装滋润补水密集修 1190.0 NaN NaN SKII

 

 

 

##使用jieba包对title进行分词,进一步了解每一个商品的特征

import jieba 

subtitle=[]

for each in data['title']:

    k=jieba.lcut_for_search(each) ##搜索引擎模式

    subtitle.append(k)

data['subtitle']=subtitle

data[['title','subtitle']].head()

Building prefix dict from the default dictionary ...

Loading model from cache C:\Users\ASUS\AppData\Local\Temp\jieba.cache

Loading model cost 0.895 seconds.

Prefix dict has been built succesfully.

Out[8]:

 

 

 

 

sub_type = [] #主类

main_type = [] #次类

for i in range(len(data)):

    exist = False

    for j in data['subtitle'][i]:

        if j in dcatg:

            sub_type.append(dcatg[j][1])

            main_type.append(dcatg[j][0])

            exist = True

            break 

    if not exist :

        sub_type.append('其他')

        main_type.append('其他') 

data['sub_type']=sub_type

data['main_type']=main_type

data.loc[data['sub_type'] == '其他'].count() ##查看分类为其他的有多少商品

 

 

 

update_time id title price sale_count comment_count 店名 subtitle sub_type main_type 是否男士专用 销售额

0 2016/11/14 A18164178225 CHANDO/自然堂 雪域精粹纯粹滋润霜50g 补水保湿 滋润水润面霜 139.0 26719.0 2704.0 自然堂 [CHANDO, /, 自然, 堂, , 雪域, 精粹, 纯粹, 滋润, 滋润霜, 50g... 面霜类 护肤品 否 3713941.0

1 2016/11/14 A18177105952 CHANDO/自然堂凝时鲜颜肌活乳液120ML 淡化细纹补水滋润专柜正品 194.0 8122.0 1492.0 自然堂 [CHANDO, /, 自然, 堂, 凝, 时鲜, 颜肌活, 乳液, 120ML, , 淡... 乳液类 护肤品 否 1575668.0

2 2016/11/14 A18177226992 CHANDO/自然堂活泉保湿修护精华水(滋润型135ml 补水控油爽肤水 99.0 12668.0 589.0 自然堂 [CHANDO, /, 自然, 堂, 活泉, 保湿, 修护, 精华, 水, (, 滋润, 型... 精华类 护肤品 否 1254132.0

3 2016/11/14 A18178033846 CHANDO/自然堂 男士劲爽控油洁面膏 100g 深层清洁 男士洗面奶 38.0 25805.0 4287.0 自然堂 [CHANDO, /, 自然, 堂, , 男士, 劲爽, 控油, 洁面膏, , 100g... 清洁类 护肤品 是 980590.0

4 2016/11/14 A18178045259 CHANDO/自然堂雪域精粹纯粹滋润霜(清爽型)50g补水保湿滋润霜 139.0 5196.0 618.0 自然堂 [CHANDO, /, 自然, 堂, 雪域, 精粹, 纯粹, 滋润, 滋润霜, (, 清爽,... 面霜类 护肤品 否 722244.0


网站公告

今日签到

点亮在社区的每一天
去签到