@chenxushan
2016-04-12T13:12:18.000000Z
字数 6165
阅读 946
为了提高了在搜索引擎爬虫和索引使用的算法,网页的演变应进行检查。为此,我们开发了一个基于域爬虫式,即设置爬虫,收集1998年和三名土耳其每日流行的报纸(自由报,Milliyet和沙巴)至2008年间的网络档案。抓取完成后,我们获得了一组3430997 HTML页面。而于1998年一个网页的文件的平均大小约是5.19 KB,该尺寸在2008年是53.94 KB。当考虑的网页的主要内容是相似的大小,这个观察示出了使用不必要的内容和代码的增加的程度。分析表明,使用链路,图像和布局的标签的已在过去的几十年显著增加。此外,
标签已被用来代替标签,尤其是在Milliyet和沙巴。
关键词:网络爬虫,网络演进,在网页的变化程度
该网站是信息检索,自然语言处理和数据挖掘的研究课题公开数据源。这些数据源的增长是指数。然而,使用的冗余内容例如广告,横幅,导航面板和注释在网络指数已经很大。网络档案可以被检查并更好的理解“指数增长”。在这项研究中,我们收集了土耳其在线报纸的网络档案:自由报(http://www.hurriyet.com.tr),Milliyet(http://www.milliyet.com.tr)和沙巴(HTTP:// www.sabah.com.tr)
为了准备这个集合,我们开发了被即基于域的爬虫。 (SET(搜索引擎土耳其)项目有一个搜索引擎,评估模块和爬虫式模块组类,是开源的,都可以通过网页http://bilgmuh.nku.edu.tr/SET /)。这个爬虫首先产生一个URL列表,这个列表被称为种子。然后,它访问这些种子,它会在访问过的网页的所有超链接,并将其追加到URL列表。虽然这种爬虫提取超链接,它也适用于URL规范化是转换URL字符串成规范形式的处理。
Fetterly等。 [1]收集了270 Web服务器。他们在4个月的过程中,每天绘制720000网页。它扩展了Cho和加西亚 - 莫利纳[2]的研究。他们发现,所有网页的约40%的一个星期内的改变,并且其中的50%的范围是每50天更换一次。他们还发现,在的“.com”这些网页的50%里,他们每11天内的变化。另一方面,它用了4个月的时间,使得“.gov”页面的一半得到改变。 Sun等人[3]通过使用一组的100000网页从打开目录列表进行比较页面的数量和嵌入图像和帧的长度。他们的研究表明,40%的页面改变了签名。在这项研究中,我们研究每年布局中使用的文件大小和标签(
本文的组合物是如下。下一节(第2节)描述了用于采集网页的档案的设定爬虫。第三节是对平均每人每年的报纸的文件大小的布局标签的数量进行比较。第4节总结本文。
该爬虫设计是用于收集三大土耳其每日报纸自由报,Milliyet和沙巴存档。这些报纸包括有关政治,经济评论,国际,文化和体育新闻。
该构造爬虫通过产生一个适当的日期格式,首先将它们生成URL上市。这些生成的列表是我们的抓取工具种子。例如:
http://www.milliyet.com.tr/2005/01/08/
http://hurarsiv.hurriyet.com.tr/goster/haberl
er.aspx?id=1&tarih=2007-04-19
http://arsiv.sabah.com.tr/2009/02/01/
然后,它会下载初始URL,标识在下载页面中的所有超链接,并将它们添加到URL清单。在添加URL之前,URL规范化流程和独特的网页控制过程被应用到URL确保重复记录不会创建。
算法1
URL列表的准备伪代码
for all days in a given year dogenerate hyperlink[day] end forfor all hyperlinks dodownload a given page and resolve URLs in a downloaded pageURL normalization process for resolved URLsif URL contain web domain and date value of a generated domain thenif URL contain unique page id then if hash table do not contain page id thenadd page id to hash table add hyperlink listingend ifend ifelseadd hyperlink listing end elseend if end for
URL是表示网页的字符串。该URL包含一个由协议,授权,路径,查询和片段组成的字符创[4]。协议HTTP://在我们的研究中,被用于网络服务器和客户端之间的数据传输。管理局有三个额外的信息,如主机,用户和端口。路径中包含的目录包括网页或文件名。查询字符串,以符号“?”开头,有两个参数是名称和值。该片段可以通过参考一个主资源和附加识别信息的辅助资源的间接鉴定。下面的例子显示了一个自由报网址。
爬虫采用的URL需要规范化,以避免增加相同的页面,他们的URL清单。有几种类型的归一化,如转换的URL为小写,加入“/”结尾并除去碎片,点段和任意查询字符串变量。我们的抓取工具除了拥有URL规范化,另外还需额外增加两个部分。
第一部分被设计为在网页仅包含在超链接的文件名的链接的问题。因此,我们的抓取工具自动确定哪些域和目录在URL增加了协议,授权和路径的信息。例如,一个网页包含在其超链接的文件名“akbal.html”。
我们的抓取工具转变这个文件名为http://www.milliyet.com.tr/1997/01/14/yazar/akbal.html
另一部分被设计用于避免在网页中重复。例如:hurarsiv.hurriyet.com.tr/goster/haber.aspx?id=5705456
查询有两个字段为“id”和“tarih(日期)”。此网页可以通过改变日期值,也就是标识值是“ID”的,使得我们可以从不同的URL访问。因此,
我们的抓取工具创建网址的独特部分,以免URL清单在同一个网页一个额外的控制列表。
为了实现这个爬虫,我们使用了基于.NET平台工作的C#编程语言。在下载阶段,SET爬虫下载网页,并通过导入命名空间System.Net和
使用WebRequest类和WebResponse将它们保存到本地磁盘。在URL清单的创建时候,使用了正则表达式和哈希表。正则表达式是用于
描述搜索模式的特殊文本字符串。此外,正则表达式在很多编程语言,如C、C ++ 、 NET、Java、Perl、Ruby、Python中使用。它的搜索和处理基于模式的文本。对于从C#访问.NET正则表达式引擎,我们需要导入了命名空间
“System.Text.RegularExpressions”.
哈希表是使用散列函数,以映射到其相关联的值的唯一密钥的数据结构。在链接搜索,哈希表有利于在URL信息的快速搜索。在C#中Hashtable类代表一个哈希表。使用Hashtable类之前,我们导入了命名空间“System.Collections中”。
在实验中,在1998年到2008年之间,每天报纸被抓取的网页有3430997.被抓取的网页的以UTF-8编码的数据总量有109GB。网页的平均尺寸为约33.35字节。现在我们给这个集合的详细信息。 图 1.指示下载的网页每年每份报纸的数量。
抓取的网页中1998s的数字分别为Milliyet:64468,自由报:32333,沙巴:31482。今年的总数为128283.
今年总数为128283.在2008年,获得的网页文档的数字是165872,报纸事188909和233992。抓取页的总数量为578773,即2008年抓取网页的总数是1998年的总数的4.5倍。在一些年来,得到的网页的数量减少,因为网站尝试使用不同的网页设计的软件。但是网页的数量还是增加的。这样一来,我们抓取的网页情况大致是Milliyet:1508975,自由报836375,沙巴:1085647。现在,我们研究获得网页的总文件大小。 (见表1)
在表1,抓取web文档在1998s总规模是大约650 MB。然而,在2008年总尺寸增大到30488 MB,换句话说,2008年下载网页的文件大小是1998年的46.9倍。
下表(表2)示出了网页的每年三份报纸的平均尺寸。
表2中,2008年的网页的文件的平均大小大约是1998年平均尺寸的10.4倍,主要内容文件的大小是大约2 KB,这样出去一个网页的其它部分,其中包含标签和不必要的内容。在2008年,一个网页的文件的平均大小为53.94 KB。大约51 KB的包括标记和冗余内容的网页。当观察每年的网页,就会发现,其中网页利用多余的内容,如广告,横幅,导航面板和评论,这些网页的数量已经呈指数增长。例如,在早之前的就网页是没有广告的,但是如今的网页,广告的数量是不断增长的。在最后的实验中,我们研究的重要的标记是那些用于制作网页的链接,图像和布局。
在这次测试中,我们计算的是网页中的这些标签。对于这一计算,可以使用正则表达式。表3表示用于标签计算模式。
HREF表示所链接到的URL。我们对网页标记的检查中,发现openWindow和弹出式的JavaScript功能也被用来链接到的URL。因此,我们用三个正则表达式模式进行提取网页的链接。表4给出了从每年的网页获得链接的平均数目。
表4显示网页链接的平均数量每年都在高频率增加。由于标签在网页中的使用和link只定义在一个frame中,使得1998年的Milliyet和沙巴,1999年的沙巴的网页链接都变得太低。标签通过一个frameset定义一个特定的窗体。其他检查是在网页中使用的图像的平均数目。 (见表4)。
在早期的时代,文本和链接被用于网页的设计。然而2000年之后,网页设计中图片的使用情况也越来越多。这些年,图片也被用于设计菜单,链接,新闻和广告内容。
最后测试的是从网页上获取的和标签的平均数量。表格布局首先开始出现于1993 [5]。 div标签是由万维网联盟(W3C)在1997年采用的[6]。这些标签对于网页设计师和研究是非常有用。例如,Yerlikaya和 Uzun开发出可通过使用和标记作为唯一相关内容传送到给用户的智能浏览器。最近,标签被大多数网页设计师使用用于网页布局,因为层叠样式表(CSS)的设计方法更适合网页布局,让设计的一个或多个外部样式可以改变一个网站的整体外观。图2显示了每年这些标签的使用情况。在1998年,标签被使用。1999 - 2007年间,报纸的网页设计师大多是利用标签。 2007年后,Milliyet和Sabah的设计师更倾向于使用利用了css优势的标签。
在这项研究中,我们描述了SET爬虫并检查与此抓取的文本集合。这些检测可以提高所使用的方法,其中以使用的网页作为数据源,特别是在信息检索,自然语言处理和数据挖掘方面都会提供有用信息。
Fetterly等 [1]争辩说,他们检测的统计观察表明,页面大小是频率和变化程度的强有力的预测。同样,我们的检测支持这种说法。例如2008年的平均页大小大约比1998的网页页大小高10.4倍。
一些未来研究的可能性正在适应这种爬虫去下载网站,并检查这些网站。此外,另一种未来的工作将利用这些结果来改进在我们的研究中使用,如内容提取,搜索引擎和重复的文档检测方法。
Fetterly D., M. Manasse,
Raggett D. HTML 3.2 Reference Specification. W3C. W3C, 14 Jan. 1997.
Wroblewski L. Site-Seeing: A Visual Approach to Web Usability. New York: Hungry Minds, 2002.
Yerlikaya T., Uzun E İnternet Sayfalarında Asıl İçeriği Gösterebilen Akıllı Bir Tarayıcı. Akıllı Sistemlerde Yenilikler ve Uygulamaları Sempozyumu (ASYU-2010) 2010; 21-24 Haziran, Kayseri & Kapadokya, ISBN: 978-975-6478-60-8, 53-57.
Uzun E Html İçinde Gereksiz Kelimeleri Çıkaran Benzer Metin Tespit Uygulaması. Akıllı Sistemlerde Yenilikler Ve Uygulamaları Sempozyumu (ASYU- 2010) 2010; 21-24 Haziran, Kayseri & Kapadokya, ISBN: 978-975-6478-60-8, 48-52.
Department of Computer Engineering, Namik Kemal University, Corlu Engineering Faculty, Corlu / Tekirdag / Turkey
E-mail: erdincuzun@nku.edu.tr
Department of Computer Engineering, Trakya University, Ahmet Karadeniz Yerleskesi, Edirne / Turkey
E-mail: tarikyer@trakya.edu.tr
E-mail: meltemkurt@trakya.edu.tr
M .
Wiener A large-scale study of the evolution of Web
pages. Proceedings of the 12th International World Wide Web Conference, May 2003. ACM Press, 2003; 669–678.
Cho J., H. Garcia-Molina The evolution of the Web and implications for an incremental crawler. Proceedings of the 26th International Conference on Very Large Databases, September 2000. Morgan Kaufmann, 2000; 200–209.
Sun Q., D. Simon, Y. Wang, W. Russell, V. Padmanabhan, L. Qiu Statistical identification of encrypted Web browsing traffic. Proceedings IEEE Symposium on Security and Privacy, May 2002. IEEE Computer Society, 2002; 19–30.
Berners-Lee T. Uniform Resource Identifier (URI): Generic Syntax, 2005; http://tools.ietf.org/html/rfc3986.