x-crawl v7 新版本已经发布!

发布于:2023-04-27 ⋅ 阅读:(705) ⋅ 点赞:(0)

GitHub: https://github.com/coder-hxl/x-crawl

Tag: https://github.com/coder-hxl/x-crawl/releases/tag/v7.0.0

🚨 重大改变

  • 指纹升级:

    • 进阶写法的 fingerprint 改名为 fingerprints ,为数组写法,里面存放 DetailTargetFingerprintCommon 类型的对象,方便定制。内部会将里面的对象随机分配给目标。
    • crawlPage 的指纹选项调整:进阶写法和详细目标写法的指纹配置的最大宽高改为可选项。
  • 代理升级:创建爬虫实例、进阶写法以及详细目标写法的 proxy 更改为对象写法, 拥有 urls、switchByHttpStatus 以及 switchByErrorCount 这三个属性,urls 可以设置多个代理 URL ,内部默认先采用第一个,switchByHttpStatus 设置遇到哪些不符合的响应状态码需要切换代理,switchByErrorCount 设置像超时等错误时到达多少次需要切换代理。该代理轮换功能需要配合错误重试才能使用。
  • 返回值类型调整:CrawlCommonRes、CrawlPageSingleRes、CrawlDataSingleRes 以及 CrawlFileSingleRes 分别更名为 CrawlCommonResult、CrawlPageSingleResult、CrawlDataSingleResult 以及 CrawlFileSingleResult

🚀 特征

  • 可以通过在选项设置为 null 取消上级统一设置的配置。
  • DetailTargetFingerprintCommon 里的 userAgent 选项改写对象写法,并允许定制里面的主版本、次版本以及修订号的最大值和最小值。每个爬取目标都会获取一个新的 userAgent 。
  • 爬取结果新增 proxyDetails 属性,记录代理状态。
  • 指纹配置的 mobile 选项添加 'random' 属性值,允许由内部随机决定。
  • 终端提示信息进行简化以及颜色调整。

🐞 漏洞修复

  • 在 linux 系统上无法创建多级不存在的文件夹。

网站公告

今日签到

点亮在社区的每一天
去签到