一、项目说明1.项目背景一天,一朋友扔给我一个链接https://item.jd.com/100000499657.html,让我看看这个歌商品的所有评论怎么抓取,我打开一看,好家伙,竟然有近300万条评论,不是一个小数目啊。
爬虫爬取网页的基本步骤导入requests库,request可以帮助我们发送爬取的请求>>>import requests获取URL,URL相当于网页连接地址,我们以百度为例,爬取百度首页>>> r=requests.get返回文本,就完成了>>> r.text爬虫爬取图片的基本
“爬虫”:一种用于抓取网络资源的程序,它就像一个小虫子一样,在各个网站上来回溜达,将其搜索到的各种链接、信息等“带”回来交给施放“爬虫”的人。不法分子就是通过这种手段非法获取互联网信息,进而实施各类电信网络违法犯罪活动。