fetchers

发表于 2025-09-13 fetchers 网页文件 navigation

Title: 由浏览历程自动产生网页抓取程式之研究;Generation of Web page Fetchers from Navigation Records Abstract: 万维网(World Wide Web)在资讯爆炸的今天，充斥着各式各样数量难以估算的资料，能够快速有效的撷取与整合这些资料成为有用的资讯或知识，是近年来很热门的课题，由于目前万维网上流通的多为HTML文件，为提供使用者浏览而设计的半结构化语言，不利于分析和比较的应用，若能将HTML的网页资料透过资讯整合，由资讯撷取技术将网页转为结构化的资料，以统一的数据库或XML文件型式储存，对于资讯的应用有很大的帮助，例如购物网站的比价分析、新闻资料的收集…等，而如何将万维网上的HTML网页文件加以过滤、收集、撷取与整合是近年来相当重要的研究。本篇论文将资讯撷取技术的研究，区分为网页抓取与资料撷取两种技术，而资料撷取技术，已经进行相当长的一段时间，而监督式与非监督式资料撷取系统，对网页资料的撷取都有很大的贡献，然而，大多数的研究重视如何从网页中撷取出资料，缺少了抓取需要撷取网页的研究。因为需要进行撷取的网页是相当多的，一页一页的手动抓取是没有效率的，而且大多数的网页都是以相同网页样板所产生，在浏览或抓取这些网页时，都会进行相同的重复动作，因此，有一些研究让使用者自行建立抓取网页的浏览模型，帮助使用者抓取网页，但是需要使用者先学习系统所定义的浏览模型，对使用者而言是较不自然的作法