如何用SHELL写好网络爬虫

原创作品，允许转载，转载时请务必以超链接形式标明文章原始出处、作者信息和本声明。否则将追究法律责任。http://nolinux.blog.51cto.com/4824967/1550976

上周，老大压下来任务，让写一个网络爬虫，负责爬某一个行业网站的数据信息。由于本人只会 shell 编程语言，其它编程语言从未涉猎，因此就只能硬着头皮用 shell 去写了。

转眼之前已经过去一周了，一切从无到有，经历的坎坷无数，这里我就不一一吐槽。

这里呢，我就简单和大家分享下，我个人对，如何用 shell 去写好网络爬虫的几点拙见，希望有想法的朋友联系我一起交流交流想法，没有想法的就看看有精华就吸收走，有糟粕的果断弃之。

1、你肯定要简单了解下网络爬虫是什么！这个定义在谷歌一搜一大堆，这里我就不拷贝了。

2、对HTTP协议要有简单了解，比如HTTP协议1.0和1.1的区别、HTTP协议的请求过程、请求报文都包含哪些内容以及一个网页链接是由哪些部分组成的。针对请求报文的内容，是我们网络爬虫抓取的重点。如果你所要爬的网站需要登录用户名和密码，那么cookie就非常重要；如果你所要爬的网站做了防盗链，那么你就需要声明好你是从哪个连接来的，此时referer就非常的重要；如果你所要爬的网站需要传递POST信息，那么你就要对Form Data和Response比较关注才行，等等，这里仅列举几个重要的点。

3、上面提到了HTTP协议的相关，那么如何把这些信息告知给我们所要爬的目标站点呢？通常我们都是使用游览器做操作的，可是我们现在定义为网络爬虫了，那肯定要脱离人工喽。因此这里我们就要使用到2个命令工具，一个是curl，一个是wget。我个人习惯，对页面内容请求我就使用curl了，对于某些资源下载，比如图片，音频等，我就使用wget去做操作。针对这两个命令，我们所需要重视的是，如何传递cookie，如何传递referer，如何传递POST信息以及如何设置代理信息等这些内容。这里我以curl命令为例，如果我需要传递cookie，那么我就需要用到-b（–cookie）去传递cookie，使用-s(–slient)减少curl页面过程中是不必要的输出信息，使用-e(–referer) 指定从哪个url地址来等等等等，这里不再一一啰嗦。针对curl和wget的命令详解，谷歌一搜一大把，这里同样不再拷贝了。

有以上的知识，就具备了通过命令请求所爬的站点页面信息了，后面所涉及到的就是对所爬信息的筛选、过滤了，以及如何提高爬的速度。

1、针对数据的筛选、过滤，shell真是太在行了。这一点，我相信大家肯定都清楚。shell编程中常用的文本处理工具，比如grep、sed、awk这三个主要的，以及周边的cut、wc、uniq、sort等等。我们通过将这些工具与正则表达式做结合，可以完美实现对于感兴趣信息选取。针对以上几个工具的用法，不在本篇做叙述。

2、针对网络爬虫这个整体脚本的构建，这个就需要你的shell编程经验越熟练越好了，因为这个主要对shell脚本整体框架的组建以及各个逻辑之间的组合关联的把握和感知。如果这个地方处理不好，脚本的效率不仅不会高，出错的排障也是不容易的。

3、针对基于shell的网络爬虫的速度优化，这个还是蛮受上一个点的情况影响了。如果要优化速度，一方面要减少不必要的命令使用，这样能减少磁盘的IO消耗和CPU的效能计算，另一方面我们需要使用 shell 的多线程功能，来提高脚本整体的并发性。

OK！以上就是我对基于shell的网络爬虫个人拙见。下面再补充几点优化思路！

1、爬前要分析所爬网站的地域，比如国内还是国外。如果是国外的，就尽量选择国外的服务器（你懂得）不然速度可能让你汗颜！另外，本地绑定所爬网站的固定IP或者选择一个好的DNS服务器也是不错的选择。

2、在使用shell的多线程功能时，切记要控制住进程数。这个数值要综合考量，一方面要以自身服务器性能为参考依据，另一方面要以所爬站点的承载能力为参考依据，两者缺一不可。一个和谐的数值是需要多次测试求出来的，切记！

3、为了提高爬虫后期的扩展性，因此框架和变量，这两者一定要灵活，不然脚本就是个死脚本，不方便后期的扩展。

虽然shell确实是一个面向过程的编程语言，但是我还是期望能够站在更高的角度去灵活运用它。最后，我个人绝对针对网络爬虫这种东西，使用高级语言比如java、python去写效果应该更好。目前个人，不会高级语言，所以只能用 shell 语言去写，泪奔啊！

在下一篇博文，我会分享我的爬虫脚本给大家，希望能对大家有所帮助！

转自：http://nolinux.blog.51cto.com/4824967/1550976

原创文章，作者：s19930811，如若转载，请注明出处：http://www.178linux.com/1947

如何用SHELL写好网络爬虫

相关推荐

马哥教育网络班20期+第2周课程练习

vrrp_script高可用httpd&双主httpd

文件查找locate和find

最简单也最难：运维监控的最后1公里

Linux之网络管理

新的篇章

分享到: