在爬取动态网页中,学会利用抓包进行解决,分析每一个点以及对可以达到目的的每一点进行抓包分析,挖掘其中的信息。另外,在爬取网页信息中,有一些反爬虫的或者是必须加入一些参数代理才可得到需要的信息等,俊需要一个点一个步骤的去分析。
在爬取网页的过程中,编写代码时,检查代码的函数方法的准确性,少一个‘s’与多一个‘s’,都是让人头疼的问题。
在编写代码的过程中,追求最好的解决方案,习惯于用面向对象来编写代码,便于以后的学习。
编写爬虫代码,要让其像是一个浏览器一般的去爬取数据,所以代理之类的应当要严谨使用。
分析html信息,善于用正则表达式解决一些代码与文字的混合信息。
