互联网

Internet Archive:记录那些被遗忘的互联网

互联网会有记忆吗?

在 Martin Luther King, Jr 的维基百科词条下面,附注着三百多条脚注,其中包括 66 本书籍引用。

这是人们信赖维基百科的原因,几乎每一则词条的每一处描述都有迹可循,查阅者可以通过参考资料检验词条文本的准确性。

不过就算是维基百科这样的互联网百科全书,它能记录的也非常有限。《纽约客》一篇题为 Can the Internet be archived?的文章中曾经写道,「网络永远生活在当下。它虚幻、短暂、不稳定、不可靠。有时候你想要访问的网页却指向了 404... 有时候你想要查询的页面已经被更新后的内容覆盖——这更麻烦,因为网页不会告诉你,你看到的内容压根儿不是你想查询的内容。」

那么,有没有办法能够找到那些 404 或者修改前的网络内容呢?

备份互联网

有人试图备份整个互联网。

1996 年,因为担心网络上的信息不能像印刷在书籍里一样被永恒地保存下来,布鲁斯特·卡利(Brewster Kahle)创立了公益性质网站 Internet Archive。

很多人将 Internet Archive 定义为最伟大的搜索网站。Kahle 开发的搜索工具 Wayback Machine 定期收录和抓取全球网站的信息,并进行保存。Wayback Machine 的工作也有主次之分,对于不同的网站,收录的数量和频次也不相同。

截止到现在,Internet Archive 已经保存了 3300 亿网页和页面快照,而 Internet Archive 的伟大在于,除此之外,这个庞大的档案馆还记录了 2000 万册图书和文本,850 万份音频和视频、300 万幅图像和 20 万个软件程序

总而言之,Internet Archive 想做的是让信息获取更加简单和准确。最近,Internet Archive 和维基百科联手做了一件事情,让维基百科更靠谱了。Internet Archive 已经将维基百科脚注中 13 万条书籍引用定向链接到 Internet Archive 5 万本(覆盖英语、希腊语和阿

违法和不良信息举报电话:010-64158500-8113,18610056652    举报邮箱:infoweb@zero2ipo.com.cn    举报网上不良信息