关于网络爬虫毕业论文模板范文和基于Azure云平台的网络爬虫类硕士论文范文-毕业论文网

本文是一篇关于网络爬虫论文范文，可作为相关选题参考,和写作参考文献。

基于Azure云平台的网络爬虫

一、基于云的网络爬虫框架概述

在本文中,介绍了一个采用云计算技术[2] 的可扩展网络爬虫.

云计算技术使用MapReduce 编程模式,允许用户在云端构建他们自己的虚拟机,提供了有效和高效的使用资源的手段.

另外,云计算为用户提供了可扩展性功能,它能够按照请求添加新的资源（如处理器和存储容量）.

二、分布式网络爬虫的要求

分布式网络爬虫的第一个要求是选择适当的网页分区方案.在本文提出的网页爬取工具中,首先按基于站点哈希的方式划分网页（例如子域名）,并分配给代理；其次,每个站点都是基于URL-hash 划分的.

第二个要求是作业分配模式[3].在本文提出的网络爬虫中,提供一种消除交流沟通和协调员的新方法,所提出的方法使用MapReduce 编程技术.

云计算提供的分布式系统是本文网页爬取工具的关键,可以获得可扩展性,容错能力和高性能计算能力[4].

三、基于云的网络爬虫

所提出的网络爬虫程序,是基于云的网络爬取工具引擎（CWCE）,使用Azure 队列来维护从页面检索的URL 列表.本文使用Azure 表来存储关于爬虫页面的永久信息.该表基于NoSQL 数据库,允许在使用新字段插入记录时,即时定义新的字段.

Azure 队列用来维护需要爬取的URL 临时列表,Azure表维护已爬取URL 的永久信息.DNS 解析器维护网页爬取工具需要爬取的网址列表.基于云的网页爬取引擎（以下简称“CWCE”）是所提出的网页爬取工具的主要组成部分.CWCE 负责通过创建一个代理来启动爬虫过程.然后,根据CWCE 指令,代理可以在爬取过程中为网络的不同区域添加新的代理.

在CWCE 的初始化步骤中,第一个代理程序创建并从DNS 解析器获取一个URL.

如果获取的URL 不在队列中,并且从未被访问过（如果表中的URL 的访问字段的值为“False”）,则URL 将作为未访问的URL 添加到队列和表中（表中的URL 的访问字段的值为“False”）.

如果URL 已被爬取（如果表中的URL 的访问字段的值为“True”）,则CWCE 忽略此URL,从DNS 解析器检索另一个URL,并重复所有步骤.

四、基于云的网络爬虫的优势

4.1 按需扩大和缩小

云计算提供按需扩大和缩小的规模.该功能可以通过在应用层上添加多个爬虫程序来实现,也可以通过在云服务器上添加或减少虚拟机的数量来实现.

4.2 地理位置分布式的网页爬取工具

一个云供应商通过云计算服务器提供了几个可靠的服务器,服务器位于世界各地.

一个可靠的地理分布式服务器系统允许基于云的网络爬取程序根据主机位置来爬取互联网.

五、结论

在本文中,本文提出了一种基于云计算的网络爬虫体系结构.该网络爬虫在Windows Azure 云平台中实现.使用Azure 云队列在全球分布式的网页爬取工具代理之间进行连接.

每个代理从队列中获取URL,然后通过爬取获取的URL 来得到自己的结果.每个代理可以通过MapReduce 技术在Azure 表存储中添加基于NoSQL 数据库的索引页面.