爬虫学习--9.三大数据解析方式对比

发布于:2024-05-17 ⋅ 阅读:(110) ⋅ 点赞:(0)

以下是XPath、BeautifulSoup4和正则表达式三种数据解析方式与各自应用场景的对比:

  1. XPath

  • 优点:XPath可以通过路径表达式指定元素的位置,也可以通过属性和文本内容等信息来筛选元素,定位精确。XPath支持多种操作符和函数,可以进行各种条件过滤、排序、分组等操作。

  • 缺点:XPath的语法相对复杂,需要学习XPath语法和节点结构;XPath不支持CSS选择器等其他选择器。

  • 应用场景:XPath适用于XML和HTML文档结构比较复杂、需要进行多种条件筛选和操作的情况,例如从XML文件中抽取特定信息。

  1. BeautifulSoup4

  • 优点:BeautifulSoup4可以将HTML和XML等文档解析成树形结构,提供了各种方法来搜索和遍历文档树,使用起来比较灵活和方便。BeautifulSoup4支持CSS选择器和正则表达式等多种选择器来定位节点,可以根据需要选择不同的方式。

  • 缺点:BeautifulSoup4对文档结构要求不高,对于复杂的文档结构可能无法处理;BeautifulSoup4的性能相对较低。

  • 应用场景:BeautifulSoup4适用于需要处理HTML文档、对文档结构要求不高的情况,例如从网页中抽取信息。

  1. 正则表达式

  • 优点:正则表达式可以进行多种文本匹配和替换操作,例如查找、替换、分割、提取等。正则表达式能够支持更复杂的模式匹配和替换操作。

  • 缺点:正则表达式的语法相对复杂,需要学习正则表达式的规则和语法;正则表达式对于复杂的文本处理可能无法处理。

  • 应用场景:正则表达式适用于需要进行高级模式匹配和替换的情况,例如从文本中提取特定的信息。

综上所述,XPath、BeautifulSoup4和正则表达式各有优缺点和适用场景,可以根据具体需求选择不同的方式。XPath适用于XML和HTML文档结构比较复杂、需要进行多种条件筛选和操作的情况;BeautifulSoup4适用于处理HTML文档、对文档结构要求不高的情况;正则表达式适用于需要进行高级模式匹配和替换的情况。

数据解析总结案例

import requests
from lxml import etree
import re  # 内置库 不用我们下载
from urllib.request import urlretrieve
for i in range(1,100):
    url = f'http://www.godoutu.com/face/hot/page/{i}.html'
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36'
    }
    html = requests.get(url,headers=headers).text
    element  = etree.HTML(html)
    alldiv = element.xpath('//div[@class="ui segment imghover"]/div[@class="tagbqppdiv"]')
    print(len(alldiv))
    for i in alldiv:
        everyhref = i.xpath('./a/img/@data-original')[0]
        # print(everyhref,type(everyhref))
        # print(str(everyhref).endswith('jpg'))
        title = i.xpath('./a/img/@title')[0]
        # print(title)
        newtitle = re.sub('[\/:*?<>|]','',title)
        # print(newtitle)
        if str(everyhref).endswith('jpg'):
            urlretrieve(everyhref,f'images/{newtitle}.jpg')
            print(f'{newtitle}.jpg下载成功')
        else:
            urlretrieve(everyhref, f'images/{newtitle}.gif')
            print(f'{newtitle}.gif下载成功')

 


网站公告

今日签到

点亮在社区的每一天
去签到