如要要分析处理维基百科某一个页面的历史记录,最好的方式就是通过“历史页面”来寻找不同版本直接的区别。这里介绍了HTML格式下面,这些信息的存储格式,以便自动筛选信息。
如要要分析处理维基百科某一个页面的历史记录,最好的方式就是通过“ 历史页面 ”来寻找不同版本直接的区别。这里介绍了HTML格式下面,这些信息的存储格式,以便自动筛选信息。
维基百科为每一个页面提供了一个动态的历史界面,以记录每次的修改。这个页面由一个列表构成,表中的每一条都是一次修改记录,如下:
每条记录由修改日期、修改人、修改内容大小、是否是微小修改、修改备注构成,当然每条修改记录有相对应的文章正文,只是这个正文需要点击链接进入另外一个页面找到(这个和DUMP中的数据不一样,查看《文章页面及历史版本》)。
这个页面由于是一个动态页面,因此无法从DUMP文件中找出,只能通过HTML格式的方式将页面保存下来。因为是HTML的格式,所以页面的源代码包括了大量的格式化的代码,而要取得所需信息,就需要定位所信息的位置,之后,通过分析代码的结构即可取得所需信息。
每条的记录格式的内容结构如下:
另外,微小编辑属于附加属性,在源代码中按以下方式保存:
