Python爬虫(一)——爬Bing首页

发布于:2022-12-13 ⋅ 阅读:(532) ⋅ 点赞:(0)

开头说一下为啥写爬虫教程。看过我的主页后,大家不难看出我这个人比较随意,喜欢记录生活的琐事,还从来没有自己坚持做过一个完整的系列。我有的时候真的很闲,闲到刷短视频来过日子,我想逼自己一把,把我会的东西给大家讲出来,用最生活的话,让大家听懂,看懂。我不知道自己能坚持写到第几篇,先自己说一下我必须要写的,也就是爬虫的语法基础。包括正则表达式(re)、BeautifulSoup(bs4)、Xpath。讲的时候我会穿插一下案例,还有部分Python基础。爬虫毕竟是Python的一部分,所以我会尽量帮助大家在啥都不懂的情况下学会爬虫,爱上爬虫。对了,爬虫必须用Python吗?不是的,⽤Java也⾏, C也可以。请各位记住, 编程语⾔只是⼯具。 抓到数据是咱们的⽬的。我这里讲的是Python爬虫,那就又有人问为什么不讲C/Java爬虫呢?大家没有接触过C爬虫,这些弯路前任已经帮大家走完了,举个例子,从学校回家可以坐火车也可以做高铁,在你经费充足的条件下,你会坐什么?嗯~当然这里也可以坐飞机哈哈哈。大家都上车哈,车门我给焊丝!

 

爬⾍概述

什么是爬⾍?

时代日新月异,不知道各位是否遇到过这样的需求,时常总是希望能够保存互联⽹上的⼀些重要的数据信息为⼰所⽤,例如一部紧张刺激的小说,数百张优秀的让⼈⾎脉喷张的唯美图片,几个T能让你夜不能寐视频资源,等等等等。

那么恭喜你, 这个系列博文将⼗分的适合你. 因为爬⾍就是通过编写程序来爬取互联⽹上的优秀资源(图⽚, ⾳频, 视频, 数据)。Python是众多编程语⾔中, ⼩⽩上⼿最快, 语法最简单,更重要的是, 这货有⾮常多的关于爬⾍能⽤到的第三⽅⽀持库。

爬与反爬

当今世界,是一个争夺信息的时代,也是守护信息的时代。每个人都有各自的使命,我们肩上的重担从不是为了自己生存而存在。我希望大家在学习爬虫的同时,要不断反思反爬的技术。从这一刻,守护这个时代不再是说说而已。
现在教大家人生的第一个爬虫,爬Bing首页 必应 (bing.com)
from urllib.request import urlopen
resp = urlopen("https://cn.bing.com/")
print(resp.read().decode("utf-8"))

下图是网站首页7e306034de1f42f3a231cb0adc6459ae.png

看一下我们爬到的内容

216bbb21ab8b409c9e54d730c8c0d278.png

是不是很简单,有些孩子说不过瘾,这才哪到哪。好。那我们直接把必应的原网页爬出来。

from urllib.request import urlopen
url = "https://cn.bing.com/"
resp = urlopen(url)
#encoding的是网页的字体格式,mac可以不加,因为人家系统已经默认了,windows不加会乱码,大家不信可以试一下
with open("E:\mybing.html", mode="w",encoding="utf-8") as file:
    file.write(resp.read().decode("utf-8"))  # 把读取到页面源代码写进file里,file的名称叫mybing.html
print("over!")

看一下结果

bf4a1ed98faa4a7a997415d13a64c711.png

 今天就写这么多,明天整理思路,隔一天再写第二篇.第二篇有两个思路,第一个就是把爬虫的理论知识讲一下,第二个呢就是直接上手教大家requests。我想想吧。

有朋友私信想看第一节,我还纳闷呢,结果发现没有审核通过,原因呢我大致了解了下,就不多说了。总而言之呢,感谢审核大大的指点


网站公告

今日签到

点亮在社区的每一天
去签到