Одно из подсознательных допущений эпохи всеобщей интернетизации – информация единожды попавшая в поисковик точно где-то сохранится и будет оставаться проиндексированной (квази) вечно.
Почему и как обычно не спрашивают.
Все привыкли видеть кэшированные копии искомых ресурсов в Google и воспринимают их наличие, как данность.
Однако это никакая не аксиома. Более того, даже для относительно свежего массива данных это сомнительное утверждение.
Начнем с того, что стремительно растущее количество данных (и их не менее быстро снижающее качество :-)) ведет к известному эффекту – сокращению времени их хранения поисковиками.
Несколько лет назад индексы Google полностью перестраивались раз в пять лет, сегодня говорят уже о трех годах. Слухи о том, сколько именно будет хранится ссылка на необновляемую страницу, которую никто не ищет – отдельная тема.
Ушедшие с концами в небытие домены существуют в виде кэша год.
Дальше по идее за дело должна взяться Wayback Machine (WM), 279+ миллиардное хранилище web-антиквариата.
Кроме WM пользователи, желающие ознакомится с историей сети, могут полагаться только на добродушных провайдеров, кэширующих страницы и щедрых представителей хостингов.
И те и другие – вымирающий вид.
Посему остановимся на функционировании WM. По идее, весь смысл ее существования – делать снимки состояния ресурсов на определенный временной момент и с известной периодичностью проверять изменение их статуса.
Ни политических, ни социальных подвязок быть не должно. Глобальный архив добра и зла в одном флаконе.
Что мы видим в реальности?
Компания FlexiSpy, предлагающая специальный софт для перехвата звонков, сообщений и GPS координат владельца мобильного устройства, какое-то время назад опубликовала у себя на портале пользовательский опрос. Исходя из него более 50% супругов изъявили желание следить за своими вторыми половинами.
Тема оказалась настолько интересной, что целый ряд топовых изданий обратил на нее внимание. В частности, New York Times.
Спустя несколько месяцев и сам красивый график и его следы в WM исчезли.
Любой ресурс может исключить себя из процесса бот-кроулинга в явном виде с помощью «robots.txt».
Проблема в том, что он уже был индексирован, а теперь “This URL has been excluded from the Wayback Machine.”
Никто не может объяснить, как такое могло случится.
Это далеко не первый случай.
Доказать post factum присутствовала ли страница в архиве или ее каким-то образом оттуда выпилили не представляется возможным.
WM – граница, за которой ничего нет.
У самого интернет-архива нет своего архива.
Удаление страницы оттуда означает цифровую смерть.
«Чего не хватишься, ничего у вас нет».
В последнее время появилась куча сервисов, отслеживающих и анализирующих fake news. Там хранится история за несколько лет по выбранным темам.
Но, во-первых, сама подборка крайне однобока, какой бы вариант мы не выбрали.
Во-вторых, никто не гарантирует сохранность контента и его неизменность. Арбитраж все равно волей-неволей ложится на плечи WM.
А она уже скомпрометирована.
Всё сказанное органично дополняется разнообразными «законами о забвении», многотысячными (для каждой территории) решениями судов, позволяющими навечно что-то удалять или блокировать пользователей, стирая их истории. И так далее и тому подобное.
Стоит погрузиться вглубь зыбкой глади волн мировой ноосферы и окажется, что старая добрая бумага на пыльных полках не такой уж хрупкий носитель информации по сравнению магнитным носителем и кнопкой «Del».
Конечно, если рассматривать реальное положение вещей, а не слушать абстрактные рассуждения о тотальной дигитализации, как многие любят.
https://telegram.me/mikaprok
Anonymous
May 27 2018, 22:23:42 UTC 1 year ago