在大数据的时代背景下为了能够准确有效的获取网络数据定向抓取相关网页数据的网络爬虫应运而生。python是网络爬虫首选的程序设计语言它拥有着丰富且强大的库能够简洁有、效的实现目标网络数据的获取其中re库是一个用来提取目标数据的优秀的python库。为了深入学习re库的使用方法首先了解正则表达式的概念和语法从而更好地理解python语言的re库深入探究re库的使用技巧包括使用原理、功能函数等。介绍目标网络爬虫原理、网络数据抓取的一般流程以及re库在获取目标网络数据中的应用。最后以某某劳动力市场为例实现目标网络数据的获取。
基金项目(Foundation): 2018年国家社会科学基金西部项目“基于数据挖掘的农村居民人均可支配收入数据质量评价体系的构建”(18XTJ002);; 2019年广西研究生教育创新计划项目“精准扶贫形势下农民收入调查研究”(XYCSZ2019088)
[4]熊畅.基于Python爬虫技术的网页数据抓取与分析研究[J].数字技术与应用,2017(9):35-36.
[7]周米雪.基于改进PageRank算法的医学垂直搜索引擎的研究与实现[D].西安:长安大学,2017.