数据是信息时代的关键生产要素,企业获取、分析、利用数据的能力在市场竞争中越来越重要。爬虫技术因其高效的自动化数据处理能力,成为企业搜集市场情报、监控竞争对手、分析用户行为的重要工具。但爬虫技术的使用并非没有界限,即使是公开数据,擅自使用爬虫技术不当抓取也可能违法甚至涉嫌犯罪。
就我个人经验来看,数据爬虫是很费时间的技术,特别对于中小公司和个人,我曾经想研究下某音用户短视频的评论情感倾向,需要大概100万条级以上的数据,光是写代码有上千行,虽然是公开数据,但会面临各种反爬手段,最后脚本磨了两三天才能正常稳定的运行。
我和很多学python的同学聊过,至少有30%以上的人学Python是为了网络爬虫,也就是采集网站的数据,不得不说这确实是一个刚性需求。但一个残酷的事实是,即使一部分人学了Python,掌握了requests、urllib、bs4等爬虫技术,也无法有效地获取标的网站的数据。
看到We're sorry but safe-cactus-v2 doesn't work properly without JavaScript enabled. Please enable it to continue.提示时,以为是javascript没有开启,于是乎就折腾了好长时间。