网站时光机与 Cloudflare 合作,方便取得更大量的库存网页

同时也为 Cloudflare 的网站备援服务提供备援。

Andy Yang
Andy Yang
2020年09月19日, 晚上 06:00
Wayback Machine
Igor Bonifacic / Engadget

俗话说「凡走过必留下痕迹」,而在网络上负责留下这个「痕迹」的,非「网站时光机(The Wayback Machine)」莫属了。这个由非营利组织「互联网文件馆(The Internet Archive)」所建立的数码数据库,自 2001 年来持续不断地爬找、备份整个网络上所有的网页,不仅为所有看得到的页面都留下备份,还能看到同一个页面在不同时期的样貌,至今已经库存了超过 4,680 亿个网页了。

网站时光机取得页面的方式,原先主要有两种。一个是由使用者自行上传网址到网站时光机,另一个则是通过机器人定时去爬找并存下所有的链接和对应的页面。如今网站时光机宣布了将与 Cloudflare 合作,新增第三种取得的方式 —— Cloudflare 提供的「Always Online」服务。这个服务将客户的网页存成静态的页面,放在 Cloudflare 的服务器上,让客户在自己的服务断线时,还能由 Cloudflare 提供备援。当客户把要备援的网页提供给 Cloudflare 时,Cloudflare 就会顺便将网址传一份给网站时光机了,除了协助扩大网站时光机的库藏之外,也能在 Cloudflare 自身出问题时,担当「备援的备援」。

目前网站时光机每天都要爬取十亿个链结,目前不清楚的是 Cloudflare 所提供的新链结当中,有多少是与现有重复的。但不论如何,这都意味着网站时光机将能备份更多的网站与网页,为后代留下更多网络时代早年的纪录吧。

标签: cloudflare, internet archive, wayback machine, news, gear