互联网档案馆正在向Wikipedia文章添加图书来源的数字预览
Internet档案馆的一项新计划通过链接到所引用书籍的数字化预览,使得检查Wikipedia上的引文更加容易。当有一本书的扫描可用时,这应该使消息来源更容易说出Wikipedia文章所声称的内容。
尽管通过追踪所引用的任何书籍的物理副本来进行相同的操作始终是可能的,但这对于在紧迫的期限内工作的记者或学生来说尤其不切实际,尤其是对于难以找到的书籍。从理论上讲,新计划意味着只需点击一下即可获得来源。但是实际上,要将Wikipedia数百万的引用与相关书籍进行匹配将需要一些时间。到目前为止,互联网档案馆已将相对较小的130,000引用量链接到50,000本书。这些计划还依赖于Wikipedia的作者引用使用正确格式的书籍,并且他们需要指定确切的页码才干使系统正常工作。根据Wired的报道,ISBN编号对于查找匹配项非常有帮助,但并不是每本书都有一本。
除了将引用与正确的书籍相匹配的挑战之外,Internet档案库在将书籍数字化方面取得了良好的发展。《连线》报道说,该组织已经拥有一个380万本扫描图书的数据库,并且每天的扫描速度超过1000件。互联网档案馆说,它希翼在未来几年内再增加400万本书。
将Wikipedia的书籍引文数字化只是Internet档案馆试图使准确的信息更易于在线查找的一部分。除了在书本引用方面的工作外,它还向来在抓紧Wikipedia,以链接到其Wayback Machine中存档页面的链接来替换损坏的引用。截至10月初,其InternetArchiveBot已修复了整个Wikipedia上近600万个损坏的引文。
更正:Internet存档每天的存档速度为1,000,而不是最初所述的10,000。添加了澄清说明,该组织将在未来几年中使另外400万本书联机,而不是总计400万。