我们都知道AI模型和应用离不开数据支持, 最近在做模型数据分析的时候发现一款非常强大的开源爬虫库——Crawlee, 是一个用于 Node.js 的网络爬虫和浏览器自动化库, 同时支持 javascript 和 Typescript. 可以低成本帮助前端工程师快速构建一个高质量爬虫应用.
注意,此处代理前面需要加上协议,即 http:// 或者 https://,当请求的链接是 HTTP 协议的时候,会使用 http 键名对应的代理,当请求的链接是 HTTPS 协议的时候,会使用 https 键名对应的代理。
看到We're sorry but safe-cactus-v2 doesn't work properly without JavaScript enabled. Please enable it to continue.提示时,以为是javascript没有开启,于是乎就折腾了好长时间。