fetchers
title: 由浏览历程自动产生网页抓取程式之研究;gene
Title: 由浏览历程自动产生网页抓取程式之研究;Generation of Web page Fetchers from Navigation Records Abstract: 万维网(World Wide Web)在资讯爆炸的今天,充斥着各式各样数量难以估算的资料,能够快速有效的撷取与整合这些资料成为有用的资讯或知识,是近年来很热门的课题,由于目前万维网上流通的多为HTML文件,为提供使用者浏览而设计的半结构化语言,不利于分析和比较的应用,若能将HTML的网页资料透过资讯整合,由资讯撷取技术将网页转为结构化的资料,以统一的数据库或XML文件型式储存,对于资讯的应用有很大的帮助,例如购物网站的比价分析、新闻资料的收集…等,而如何将万维网上的HTML网页文件加以过滤、收集、撷取与整合是近年来相当重要的研究。 本篇论文将资讯撷取技术的研究,区分为网页抓取与资料撷取两种技术,而资料撷取技术,已经进行相当长的一段时间,而监督式与非监督式资料撷取系统,对网页资料的撷取都有很大的贡献,然而,大多数的研究重视如何从网页中撷取出资料,缺少了抓取需要撷取网页的研究。因为需要进行撷取的网页是相当多的,一页一页的手动抓取是没有效率的,而且大多数的网页都是以相同网页样板所产生,在浏览或抓取这些网页时,都会进行相同的重复动作,因此,有一些研究让使用者自行建立抓取网页的浏览模型,帮助使用者抓取网页,但是需要使用者先学习系统所定义的浏览模型,对使用者而言是较不自然的作法