爬虫学习资源整理

8,868 阅读4分钟
原文链接: zhuanlan.zhihu.com

啊,好久没写东西了,发现收到了好多人的私信,我只要有时间都一一回复了,虽说不一定有用,但权当我们互相交流啊,互相学习呀。

最近一篇《我分析了42万字歌词后,终于搞清楚民谣歌手唱什么了》文章(因为原文是微信上的,就不分享链接了,想看的自己搜索即可)在各个平台都可以看到,也正因为如此,一时间很多小伙伴(特别是新手、小白)私信我“怎样写爬虫?”“哪里可以找到爬虫教程?”之类的,嗯,大家也知道我的尿性,肯定不会写一篇文章专门教爬虫,我会推荐一些教程,毕竟好教程现在太多了,照着学习就行了。

PS.我会尽量整理和分享一些有详细步骤以及代码的爬虫教程,希望纯小白也能照着操作学写爬虫脚本。

教程一:Python爬虫学习系列教程

这个博主的这个爬虫学习系列教程,很详细啊,从入门到实战、进阶等都有详细的文档介绍,对爬虫感兴趣的小伙伴推荐一看。

教程二:学习网站上的爬虫教程

实验楼的爬虫教程不是太多,但是都有详细的讲解和代码,而且有在线开发环境,对于学习者是非常不错的。其中最喜欢的就是那个 爬豆瓣热门电影的教程 ,因为我自己超喜欢看电影。还有一个 爬美女照片 也挺好的 ,算是福利吧,哈哈。

教程三:GitHub - facert/awesome-spider: 爬虫集合

这是一个收集各种爬虫 (默认爬虫语言为 python)的集合,其中还有蛮多爬虫蛮有趣的,而且每个爬虫都有详细的开源代码以及一些说明讲解,如果想写个爬虫的话,倒是可以参照写写。

教程四:Python爬虫入门教程

这个入门教程主要是简单的介绍如何使用Python的相关模块如urllib2来实现网络爬虫,和刚才介绍的第一个爬虫教程有点类似,不过没有第一个那么系统完善,但是新手也是可以看看的。

------------------

上面是教程,这里介绍一些爬虫软件,不想自己写爬虫的,可以用,较为方便。

1.Java开源Web爬虫分类列表

列表主要是一些开源的WEB爬虫,感兴趣的可以看看。

2.33款可用来抓数据的开源爬虫软件工具

这篇文章对较为知名及常见的开源爬虫软件进行梳理,按开发语言进行汇总。有需求的可以看看。


---------------

爬虫可以做很多有用的事情,方便快捷,同时也可以做很多有趣的事情,分享几个有趣好玩的爬虫教程:

有趣的爬虫一:怎样借助Python爬虫给宝宝起个好名字

最近看到的一篇文章,深深觉得有个程序员爸爸是多门的方便啊,连取名字都可以这么自动化……

有趣的爬虫二:我用爬虫一天时间“偷了”知乎一百万用户,只为证明PHP是世界上最好的语言

这是比较久以前的一篇文章了,也算是比较有趣吧,当时看到后就两个字“佩服”,学PHP的小伙伴可以看看哈。

----------------

其他:

Python爬虫:一些常用的爬虫技巧总结

前面介绍的主要是详细的爬虫教程,这篇文章呢,主要是总结一些常用的爬虫技巧的代码,如果经常涉及到写爬虫脚本,都可以直接拿去复用的,很方便。

当然,有爬虫,肯定就有反爬虫啦:

超轻量级反爬虫方案

文章列出的是一种简单的反爬虫方案,可以当做概念示例或者是救急方案,如果需要进一步深化,还需要在其他方面加强才行。

----------------

最后:

好久没写了,生疏了好多,看文字也知道这篇文章我写的较为随意,提起笔后就哗啦啦想到哪里写到哪里,无论如何,还是希望可以给那些想写爬虫玩玩,但不知道如何开头的小伙伴一点帮助。

还是那句老话,如果你有关于爬虫的一些教程,或者一些有趣的爬虫可以评论或者私信给我,我添加进来,毕竟资源共享可以得到更多更好的资源。