你好,我是DS Hunter,反爬虫专家。
也许你是一个爬虫工程师,也许是反爬虫工程师,甚至,也许你只是一个业务方的普通研发,被授予了反爬的重任。但是,不论你的身份是什么,“什么是爬虫”这个问题都是你必须要了解的。
为什么这么说呢?
可能你常把爬虫挂在嘴边,觉得自己已经很熟悉爬虫了,但当你尝试自己做一个爬虫或者完成一个反爬虫动作时,却发现无从下手。其实,很大的一个原因就是你对于“什么是爬虫”这个问题了解得并不透彻。
从历史的视角来了解爬虫从哪里来、能做什么,以及从诞生到现在的这段时间里都发生了什么样的变化,可以让你对“什么是爬虫”这个问题产生更深度的思考,这也是我要在课程里特地为你设置一个“历史背景篇”的主要原因。咱们接下来正式开始吧。
爬虫是一个历史悠久的需求,严格来说,它甚至比网络出现得还早。或者你也可以理解为,网络出现之后,网络和爬虫才结合成了我们所熟知的网络爬虫。因为互联网大部分的功能其实并没有什么新意,只不过是把线下的场景搬到线上来了。
而爬虫,其实就起源于线下。再聚焦一些,爬虫,起源于再平常不过的——菜市场。
前几天我听了一首很喜欢的歌,叫《说走就走》。里面有一段话,说的是:“走世界,看精彩,从18岁讲到现在,最后到巷口去买菜。”
本意是说,年少充满理想,长大后被生活压垮,每天沉迷于菜场买菜这种小事,再也没有了理想。但是实际上,买菜并不是小事,它充满了技术含量。
菜场买菜的大妈们砍价非常厉害——我感觉我这辈子都学不来。对她们来说,即使只差一毛钱,也可能会让她们选择去别的摊位买菜。也许你不太理解这种行为,觉得,我都在这问了价了,就因为隔壁少一毛钱,就去隔壁,这多不好意思啊。但是对于菜场的顾客来说,这很正常啊,“同样的东西, 哪里便宜我就去哪呗”,这是再正常不过的“博弈”了。
说回喜欢在网上买东西的你。一个小东西,A网站比B网站便宜一毛钱,你是不是就果断抛弃了B网站?或者A说,价格一样,我包邮。你是不是就直接去A网站买了?这个时候,因为没有面对面的交流,你就没什么不好意思的了。所以说,趋利避害这是人性使然,自古如此,与年代性格都无关。只要有人的地方,就会有“博弈”。
最后,在买菜或者买东西的故事里,除了“你”这个主角,商贩们其实也没闲着。他们也会做一些操作,比如让自己的家人去四处转转,看看别的摊位卖多少钱、有没有偷偷降价。如果有顾客来自己的摊位买菜,也会顺便问问,“哎你这个菜多少钱买的啊”,只要不低于成本,他就敢降到一样的价格,甚至更低。
实际上,大妈们获取价格的方法、你对比价格的过程以及商贩们相互获取价格的方法,都可以理解为“爬虫”行为,和网络爬虫其实也没有什么区别。只是人工问价效率低,爬虫效率高。价格,就是在这样不断博弈的过程中,慢慢均衡下来的。而博弈的第一步,就是“问价”——获取数据。
为什么获取数据这么重要?其实《孙子兵法》就提到过:知彼知己者,百战不殆。商场如战场,获取数据自古就是胜负的关键。
至于获取数据的需求是怎么产生的,我给你举个例子吧。获取数据的手段——爬虫,很难学的一个主要原因就是描述它的词汇太多了。你可以看下网络上对爬虫的定义,有几个常用的词:爬虫、抓取、spider、crawler……可能我也说不全。日常使用的话,这些词你随便挑哪一个都行。但是搜索对应知识的时候,为了更全面一些,就要全搜一遍。那如果你不想连搜四次,怎样操作才能一次性拿到所有的结果呢?
这个时候,聪明的你可能已经想到了,我要不要写个爬虫全拿下来呢?恭喜你,你为了获取爬虫的知识,已经自发地产生了一个爬虫的需求。
因此你会发现,爬虫需求的产生是自然而然的,而你的需求不一定是一个坏的需求——你看,我们多正经。是的,技术只是工具,与善恶无关。
最早的Google工程师就是这么想的,或者再早的Yahoo。我们无从得知当时具体发生了什么、第一个爬虫是如何被写出来的。但可以想象的是,因为当时的互联网数据越来越多,获取信息变得越来越难,于是他们就写了一个网络爬虫来获取数据。从此,潘多拉的魔盒就被打开,后面的事情就不再可控了。
既然提到了Google和Yahoo,我们就紧接着从历史视角,审视一下搜索引擎和爬虫的关系,看看爬虫的早期历史和相关的技术变迁。
搜索引擎可以认为是爬虫的集大成者了。它本质上就是用爬虫爬取天下数据,汇聚在自己的网站上,让大家可以在自己的网站上直接搜索到全天下的知识。这个操作对于搜索引擎和站点两方都是有利的,搜索引擎自己能够获得稳定客户,甚至商业利益;站点本身可以获得流量,未来也可以获得商业价值。
为了这个双赢的局面,还引发了一个叫robots.txt(也叫robots协议)的君子协定,里面会约定,哪些可以爬,哪些不可以爬。但是因为大家很依赖搜索引擎,所以除非是用户信息,否则一般都是开放的。甚至有些站点不写robots.txt,默认对搜索引擎全部开放。除此之外,还可以写sitemap来指定自己网站都有什么,欢迎搜索引擎来赶紧爬走,给自己打个好评,引导用户过来。大家主动交流,相互沟通,真的是一个美好的上古田园时代。
但是美好的上古田园时代由于网络的不断发展,注定不会持久,很快,爬虫就发展到了春秋时期。
在春秋前期,爬虫已经不是新技术了。你的那个不懂技术的老板,可能都已经知道了:想要寻找大量数据,可以用爬虫去爬别人。所以,你就接受了这样的需求,开始学习相关的知识。
但是你也知道,网络历史从 TCP 到 HTTP,现在又回到了 TCP。随着历史的变化,爬虫本身的技术也会随之变化。毕竟,服务器使用了什么类型的网络,爬虫就要被迫使用什么类型的网络。
当爬虫开始受网络发展的影响,就注定也会被其它因素影响。在春秋前期,大家逐渐产生“爬取数据”的需求,到了春秋中期,这些需求逐渐演变成了一个业务的雏形。也就是说,在这个时候,不同的业务开始对爬虫技术产生影响了。
咱们先说扒站这件事。最初爬虫都是一些大公司的特权,小公司自己的业务都做不完,哪有时间去搞爬虫。但是出于业务的需要,一个新的行为就诞生了——站点复制,俗称扒站。
也就是说,别人网站做得好,我刚创业,追赶别人根本来不及。怎么办呢?答案很简单,我写个爬虫把整个网站抓下来不就好了。然后把数据放在我的服务器上,就可以瞬间追上别人的进度,站在同一起跑线。
还有就是浏览量的需求了。站长很想让搜索引擎来爬自己的数据,因为有了搜索引擎的爬取,就会有排名,就会有业绩。而为了提高搜索引擎的分数,他们十分渴望搜索引擎来抓取自己所有的数据。
关于搜索引擎爬取自己数据的这件事,我们可以回顾一下历史。
早年的网站结构其实很简单,就是一个服务器,上面挂了一些静态的文件。有的站点甚至会打开目录遍历权限,也就是说你去找一个目录看一下,能直接看到目录下面有什么文件,这种站点扒起来简直太舒服了。 但是如果没有开目录遍历权限,就要麻烦很多了,似乎抓起来就没有前面说得那么容易。
好了,从历史回顾里跳出来,春秋中期的站长,为了给搜索引擎抓取数据提供便利,通常会有两种操作:一种是sitemap,也就是给整个站点建一个地图,给对方使用;还一种就是内链,通过自己不断引用自己,来实现引导爬虫爬取完整站。
这样一来,爬虫工程师的爬虫思路就显而易见了:既然站长提供了sitemap和内链两种便利,我只要声称自己是搜索引擎就好了。这样对方不但不会拒绝,还会引导我去爬取整个站点。这样,想扒整个站就变得非常容易。
你可能会觉得,这里有点引狼入室的感觉了——难道站长已经有准备了?没有。等狼真的来了也没有什么办法——撑死就是封一封明显太过分的IP。
最后我来给你总结一下这个时期爬虫的爬取思路吧。春秋中期,爬虫基本上就两个爬取思路,一个是深度优先遍历, 一个是广度优先遍历,它们的最终目的都是抓完整站。所以爬虫会有一个“spider”的名字,蜘蛛能结网,指的就是这个遍历方式。如果你以后面试的时候,面试官着重考查这两个知识点,你要理解,他已经很久不做爬虫了。这是远古时代的基本技能,现在大家已经不太关注这个了。
后来两件事情改变了这个行业的格局。一个是电子商务的出现和普及,一个是站点的动态化和伪静态化,我们也就随着这两件事从春秋中期进入到了春秋后期。
先看第一件事:电子商务的出现和普及。你还记不记得我在开头提到的一句话:互联网大部分功能其实并没有什么新意,只不过是把线下场景搬到线上来了。
电子商务其实就是把菜场搬到了线上。 菜场有爬虫,电子商务就会有爬虫。与搜索引擎不同的是,商场如战场,战场上的较量,有时候就没有那么强调道德了。爬虫也就渐渐为所欲为了起来。
另一件事就是站点的动态化和伪静态化,动态化页面导致站点内容变得十分丰富,甚至可以认为近乎无穷无尽,通过改变参数就可以不断改变站点内容,这一点对搜索引擎非常不友好。但是好消息是,这一点对其它爬虫,一样很不友好。
因此,站点开始进行伪静态化。假装自己依然是个静态站点后,爬虫的需求开始变得复杂,单纯的深度优先和广度优先满足不了大家的要求了。尤其是随着Web 2.0的诞生,站点更加复杂,本身也开始了分层,界面是界面,数据是数据。那么我们的爬虫最关注的是什么?是数据。那就是说,爬虫甚至可以只抓数据,跳过界面。这个时候,爬虫就变得十分高效。
不过,当爬虫变高效之后,服务器的噩梦就诞生了。由于前后端分离, 静态资源放置于CDN,通常并不是很怕爬虫。但是数据位于服务层,服务层比CDN脆弱得多,爬虫一来,可能打爆链接数,甚至可能击穿数据库、拖慢站点性能,各种诡异的情况都可能发生。
总的来说,电子商务的出现和普及以及站点的动态化和伪静态化这两件事出现之后,爬虫就很容易不小心惹事。很多文章都会教你,尽量控制频率,不要把站点爬挂。而我们被爬的站长那一方,他欢迎搜索引擎,但是不喜欢爬虫,不过依旧没有太好的办法区分彼此。
如果说爬虫是一场战争,那么现在的春秋时代,大家打仗还是讲究一个“礼”字的。截止到目前,还没有彻底崩坏。但是,根据历史我们可以知道,这样的事情不会持续多久,战国,很快就要来了。
好了,最后我来给你小结一下。今天和你聊了爬虫的产生、早期历史以及一些相关的技术变迁。
可以说,“爬虫”是竞争的必然产物,而网络的出现,赋予了爬虫在互联网领域的生命。再次强调,这项技术只是工具,与善恶无关。
在美好的上古田园时代,爬虫彬彬有礼,用技术不断辅助大家,让整个互联网变得更好。搜索引擎自己能够获得稳定客户,甚至商业利益。而站点本身可以获得流量,未来也可以获得商业价值。你看,需求正经,做的也是正经事。
截止到这个时候,爬虫还没有任何过错,还没有到现在这种人人喊打的地步。如果人类的爬虫技术止步于此,那么这个世界将非常美好。遗憾的是,人性自古不变,行业建设到一定程度就会产生内卷。
在春秋时期,随着不同业务需求的诞生,爬虫技术也随之发展。春秋前期,我们发现爬虫开始不停地迭代,适应网络环境。后来,春秋中期的扒站行为,本身已经是一种轻度内卷了。同时,站长出于对浏览量的需求,提供了sitemap这张地图以及内链的方式,助长了爬虫疯狂爬取的气焰。而到了春秋后期,电子商务更为爬虫增添了不少的商业气息,商人逐利,爬虫也逐渐为所欲为。站点的动态化和伪静态化,让爬虫直接爬取数据层,站点无法承受攻击……
下一讲,我们会进入到战国时期,看下礼乐制度彻底崩溃、内卷到血流成河的时候,整个行业会成为什么样子。而这,也是你我共同面临的环境。
好了,这次是我第一次给你留思考题。下面有三个方向,你可以选择一个来和我分享:
期待你在评论区的分享,我会及时回复,不过要记得注意保密脱敏。