一般来说，搜索引擎爬虫不会执行页面上的javascript代

一般来说，搜索引擎爬虫不会执行页面上的JavaScript代码，而网站分析工具大多又是基于JavaScript代码的，这也就是说，默认情况下，网站分析工具不能记录到搜索引擎爬虫这部分的流量。但搜索引擎爬虫数据对于SEO又是非常的重要，那么如何才能拿到搜索引擎爬虫对网站的爬取数据呢？方法可能有很多，比如直接从网站服务器日志中来统计爬虫信息。本文以nginx日志为例，来说明如何从中提取出爬虫信息。最近一个同学找到我，希望我帮忙处理一份数据。那份数据是这样的：包含了3661行，第一行为各列的名称；包含8列，第一列为专利ID，其余7列为企业ID。