许多人可能经历过这样的事件:当你在某个网站上注册个人信息后,装修的、卖房的、贷款的……各种骚扰电话接踵而至。这些信息到底是怎么泄露的呢?红星资本局注意到,裁判文书网最近就披露了一起惊天大案:两名犯罪分子在淘宝网爬取并盗走大量数据。经过核实,此次泄露的个人信息竟然高达近12亿条。
一年多前,杭州、上海多家数据科技公司接连被查,一时间大数据行业人人自危,纷纷关闭旗下的爬虫服务。其中,业内较为知名的大数据公司魔蝎科技,一度因侵犯公民个人信息罪被法院判处罚金3000万,同时公司法人和技术总监等人悉数获刑。
数据是信息时代的关键生产要素,企业获取、分析、利用数据的能力在市场竞争中越来越重要。爬虫技术因其高效的自动化数据处理能力,成为企业搜集市场情报、监控竞争对手、分析用户行为的重要工具。但爬虫技术的使用并非没有界限,即使是公开数据,擅自使用爬虫技术不当抓取也可能违法甚至涉嫌犯罪。
9月4日,多家媒体报道称,淘宝、天猫将全面引入微信支付。随后,“淘宝即将全面支持微信支付”的消息迅速登上多个平台热搜,引发全网沸腾。有报道称,这是2013年微信和淘宝“交恶”、互相屏蔽多年后,首次真正意义上的互联互通。对于这一互联网大事件,有网友表示“见证了历史”。
对通用网站的数据抓取,比如:谷歌和百度,都有自己的爬虫,当然,爬虫也都是有程序写出来的。根据百度百科的定义:网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。
我和很多学python的同学聊过,至少有30%以上的人学Python是为了网络爬虫,也就是采集网站的数据,不得不说这确实是一个刚性需求。但一个残酷的事实是,即使一部分人学了Python,掌握了requests、urllib、bs4等爬虫技术,也无法有效地获取标的网站的数据。
中新网杭州6月10日电商品店铺信息和图片相同,但买来却发现品质有着天壤之别,像这样的“盗图抄店”现象不仅直接侵犯品牌商家和消费者的合法权益,更会严重干扰正常的市场秩序。10日记者获悉,杭州市市场监管局首次查处一起”搬店软件”新型不正当竞争案,2家开发销售“搬店”软件非法获利的企业被处以罚款共计140万元。
记者从杭州市市场监管局获悉,该局近期依法查处了2家开发销售“搬店”软件并非法获利的企业。据介绍,“搬店”软件是利用“爬虫”技术,在电商平台抓取指定店铺及其商品数据,如店铺设计、商品详情、商品图片等,供他人在其他电商平台进行自动化、批量化的“盗图抄店”。