写了那么多篇找工作的文章，再写几篇就完了

写了那么多篇找工作的文章，再写几篇就完了，也算是对自己一段时间的一个总结。近来发现自己博客上python技术点的文章有点少，为了防止自己总是遗忘，还是写出来的好。

前几天刚看完《Linux/Unix设计思想》，真是一本不错的书，推荐想提高自己代码质量的童鞋看一下，里面经常提到要以小为美，一个程序做好一件事，短小精悍，因此我也按照这种思想来写python技术点的文章，每个点都是一个函数，可以直接拿来用。

一般情况下用python的童鞋是不可避免的要写一些爬虫程序的，因此对python中urllib和urllib2都比较熟悉。而最基本的爬取方法就是：

大多数网站都不会禁止这样的爬取，但是有些网站都设定了禁止爬虫爬取，当然这样一方面是为了保护内容的版权，另一方面也是为了方式过多的爬虫造成网站流量的白白浪费。恶意爬取某一网站的内容当然是不道德的行为了，这里只讨论技术。

下面的函数通过urllib2来模拟浏览器访问链接爬取内容：

仅仅是模拟浏览器访问依然是不行的，如果爬取频率过高依然会令人怀疑，那么就需要用到urllib2中的代理设置了，如下：

return content

关于网页抓取的方法其实还有其他的方法，技术是很灵活的东西，就看你怎么用。