【数据挖掘入门教程】,数据挖掘基础入门教程,内含详细代码

发布于:2022-11-01 ⋅ 阅读:(567) ⋅ 点赞:(0)

初识爬虫

  • 什么是爬虫?

爬取网络数据的虫子(Python程序)

  • 爬虫实质是什么呢?

模拟浏览器的工作原理,向服务器请求相应的数据

  • 浏览器的工作原理
    在这里插入图片描述

浏览器在这个过程中还起到了翻译数据的作用哦

  • 爬虫的工作原理如下图:
    在这里插入图片描述

数据背后的秘密

爬取一页京东上销量最高的口红评论区数据

  • 找不到这双鞋子的销售数据怎么办?

曲线救国,通过评论数据间接得到鞋子的销售数据

  • 如何找到评论区内容背后的URL?

(1)从谷歌游览器打开京东(www.jd.com),鼠标右击选择检查,进入程序员调试窗口
在这里插入图片描述

(2)点击network(网络),刷新当前商品的界面
(3)复制一小段评论区内容,然后在程序员调试窗口点击放大镜🔎,粘贴
在这里插入图片描述

(4)点击刷新小圆圈查找
(5)点击查询结果的第二行,跳转到对应的请求
(6)点击Headers,找到Request URL即几评论区数据背后的URL

3行代码爬取京东数据

  • 梳理代码流程:

(1)引入Python工具包requests
(2)使用工具包中的get方法,向服务器发起请求
(3)打印输出请求回来的数据(print语法)

import requests
wang=requests.get('https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100011323932&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1')
print(wang.text)

结果

在这里插入图片描述

Python代码解析数据

  • 如何解析这堆杂乱无章的数据?

(1)打开网页工具 www.json.cn
(2)将数据整理成Json格式:以大括号开头和结尾
(3)找到目标数据值对应的名字
在这里插入图片描述

  • Python replace语法

replace为替换的意思,可以使用replace把任何不想要的数据替换成一个新值

  • 引入Python整理数据的工具包 json、获取鞋子颜色及鞋码数据
import requests
import json
resp = requests.get('https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100006262957&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1')
content = resp.text
text = content.replace('fetchJSON_comment98(','').replace(');','')	#去掉'fetchJSON_comment98('和')'
json_data = json.loads(text)
comments = json_data['comments']	#一页十个评论
for item in comments:
  color = item['productColor']
  print("productColor=",color)

结果

在这里插入图片描述

4行代码带数据回家

  • 学会引入openpyxl工具包存储数据?

(1)创建一个Excel表格

(2)创建一个sheet

(3)在sheet里面保存数据

(4)把表格保存在一个磁盘里

import requests
import json #必须以大括号开头,以大括号结尾
import openpyxl

wk=openpyxl.Workbook() #创建excel表格
sheet=wk.create_sheet()


wang=requests.get('https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100011323932&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1')
content=wang.text
#去前缀后缀
rest=content.replace('fetchJSON_comment98(','').replace(');','')

json_data=json.loads(rest)
comments=json_data['comments'] #这里面有十个值
for item in comments:
  color=item['productColor']
  size=item['productSize']
  sheet.append([color,size]) #指定第一列第二列保存的列名
  wk.save('data/LJL-1986334632n.xlsx')

在这里插入图片描述

体验数据可视化分析

Excel数据的可视化分析

import openpyxl
import matplotlib.pyplot as plt
wk = openpyxl.load_workbook('data/LJL-1986334632n.xlsx')
sheet = wk['Sheet1']
colors = []
for i in range(1,11):
  colors.append(sheet['A' + str(i)].value)
color_class = set(colors)
count = len(colors)
color_percent = []
for clr in color_class:
  color_percent.append(colors.count(clr)/count)
plt.pie(x=color_percent,labels=color_class,autopct='%1.3f%%')
plt.rcParams['font.sans-serif']=['SimHei']
plt.legend()
plt.savefig('data/msf-1557486419n.png')

在这里插入图片描述

本文含有隐藏内容,请 开通VIP 后查看