nodejs爬虫快速入手

发布于:2023-03-12 ⋅ 阅读:(40) ⋅ 点赞:(0)

最近公司需要快速启动一个网站采集项目,本来准备用python动手,想想还需要环境和配置框架,干脆直接JavaScript吧。Nodejs 支持异步并发架构,能快速采集数据,如果用python做异步实现需要的工作量就大了,并且调试也很耽误时间。较短工作时间投入下,Nodejs 爬虫不仅上手简单,数据采集效率也数倍于python的爬虫。为了避免部分网站的反爬策略,使用爬虫代理IP能够持续稳定的进行数据采集,以下就是我的代码:
const request = require("request");
// 要访问的目标页面
const targetUrl = "http://httpbin.org/ip";
// 代理服务器(产品官网 www.16yun.cn)
const proxyHost = "t.16yun.cn";
const proxyPort = "31111";
// 代理验证信息
const proxyUser = "username";
const proxyPass = "password";
const proxyUrl = "http://" + proxyUser + ":" + proxyPass + "@" + proxyHost + ":" + proxyPort;
const proxiedRequest = request.defaults({'proxy': proxyUrl});
const options = {
url : targetUrl,
headers : {

      }

};
proxiedRequest

.get(options, function (err, res, body) {
    console.log("got response: " + res.statusCode);
})
.on("error", function (err) {
    console.log(err);
})

;


网站公告

今日签到

点亮在社区的每一天
去签到