mikaprok (mikaprok) wrote,
mikaprok
mikaprok

Categories:

Random Access Memory



Одно из подсознательных допущений эпохи всеобщей интернетизации – информация единожды попавшая в поисковик точно где-то сохранится и будет оставаться проиндексированной (квази) вечно.

Почему и как обычно не спрашивают.

Все привыкли видеть кэшированные копии искомых ресурсов в Google и воспринимают их наличие, как данность.

Однако это никакая не аксиома. Более того, даже для относительно свежего массива данных это сомнительное утверждение.

Начнем с того, что стремительно растущее количество данных (и их не менее быстро снижающее качество :-)) ведет к известному эффекту – сокращению времени их хранения поисковиками.

Несколько лет назад индексы Google полностью перестраивались раз в пять лет, сегодня говорят уже о трех годах. Слухи о том, сколько именно будет хранится ссылка на необновляемую страницу, которую никто не ищет – отдельная тема.

Ушедшие с концами в небытие домены существуют в виде кэша год.

Дальше по идее за дело должна взяться Wayback Machine (WM), 279+ миллиардное хранилище web-антиквариата.

Кроме WM пользователи, желающие ознакомится с историей сети, могут полагаться только на добродушных провайдеров, кэширующих страницы и щедрых представителей хостингов.

И те и другие – вымирающий вид.




Посему остановимся на функционировании WM. По идее, весь смысл ее существования – делать снимки состояния ресурсов на определенный временной момент и с известной периодичностью проверять изменение их статуса.

Ни политических, ни социальных подвязок быть не должно. Глобальный архив добра и зла в одном флаконе.

Что мы видим в реальности?

Компания FlexiSpy, предлагающая специальный софт для перехвата звонков, сообщений и GPS координат владельца мобильного устройства, какое-то время назад опубликовала у себя на портале пользовательский опрос. Исходя из него более 50% супругов изъявили желание следить за своими вторыми половинами.

Тема оказалась настолько интересной, что целый ряд топовых изданий обратил на нее внимание. В частности, New York Times.

Спустя несколько месяцев и сам красивый график и его следы в WM исчезли.

Любой ресурс может исключить себя из процесса бот-кроулинга в явном виде с помощью «robots.txt».

Проблема в том, что он уже был индексирован, а теперь “This URL has been excluded from the Wayback Machine.”

Никто не может объяснить, как такое могло случится.

Это далеко не первый случай.




Доказать post factum присутствовала ли страница в архиве или ее каким-то образом оттуда выпилили не представляется возможным.

WM – граница, за которой ничего нет.

У самого интернет-архива нет своего архива.

Удаление страницы оттуда означает цифровую смерть.

«Чего не хватишься, ничего у вас нет».

В последнее время появилась куча сервисов, отслеживающих и анализирующих fake news. Там хранится история за несколько лет по выбранным темам.

Но, во-первых, сама подборка крайне однобока, какой бы вариант мы не выбрали.

Во-вторых, никто не гарантирует сохранность контента и его неизменность. Арбитраж все равно волей-неволей ложится на плечи WM.

А она уже скомпрометирована.




Всё сказанное органично дополняется разнообразными «законами о забвении», многотысячными (для каждой территории) решениями судов, позволяющими навечно что-то удалять или блокировать пользователей, стирая их истории. И так далее и тому подобное.

Стоит погрузиться вглубь зыбкой глади волн мировой ноосферы и окажется, что старая добрая бумага на пыльных полках не такой уж хрупкий носитель информации по сравнению магнитным носителем и кнопкой «Del».





Конечно, если рассматривать реальное положение вещей, а не слушать абстрактные рассуждения о тотальной дигитализации, как многие любят.
https://telegram.me/mikaprok


Tags: #wayback machine, #архив, #интернет, #история, #политика, history, internet, politics, usa, wayback machine
15

Anonymous

May 27 2018, 22:23:42 UTC 1 year ago

Именно поэтому с бумагой также тянуть не будут. Оптимизация и цифровизация бумажных архивов идет вовсю. Дальше слив цифровых оффлайн архивов в сеть. Дальше сворачивание массового производства оффлайновых носителей. И вуаля, обладать обширной библиотекой исходников, гарантированно не прощедших правку онлайн ножницами сможет только ОЧЕНЬ богатый субъект.
Недавно спорил в комменах по поводу сохранности данных в "облаках". По моим ощущениям там всё может быть ещё веселее. Сегодня есть, и зеркала на разных континентах и дополнительные мощности по щелчку, а завтра нет, выключили. И претензии предъявить некому. Я там, правда, налегал на ненадежность самих носителей, а не юридические коллизии. Но народ радостно пинал меня ногами, приговаривая: ретроград, невежда, ортодокс.
Может случиться вообще всё, что угодно. И техническая, и юридическая, и политическая стороны дела понимаются пользователями крайне превратно. Широкие народные массы пользователей не видят, кому всё принадлежит и к чему всё идет.

Что же, расскажем :-) По мере сил.
Да, интересно было бы. Все эти гугл-яндекс диски для обчественного пользования и что там с облачным бизнесом отдельно. Вот навернется нечаянно Амазон (кассовый разрыв, как у Леманов в 2008 в несколько сот долларов) и вуаля. Кому данные уедут?
Формально будут уничтожены, а неформально ...
я слушал передачу по радио по этой теме. Говорилось, что самая надежная система сохр инфы - на керамических пластинках, которые хранятся под землей

Anonymous

May 28 2018, 06:14:26 UTC 1 year ago

На глиняных. При записи клинописью.
Сохранение информации это проблема фундаментального уровня, ибо противодействие энтропии требует затрат свободной энергии.

Поэтому очевидно, например, что полноценно разумное общество должно обеспечивать механизмы сохранения информации. Например, право на копирайт должно быть обусловленно обязанностью сохранения полноценного доступа (не бесплатного, разумеется) к информационному артефакту.

Дескать, хочешь иметь доходы с копирайта - потрудись поддерживать интеллектуальную собственность в сохранности (применительно к недвижимости, например, такие законы существую во всех приличных местах). Не хочешь поддерживать - артефакт выводится в общественное пользование, и там уже эволюционные механизмы решат, сохранится ли он.

На практике же, всё копирайтное законодательство устроено таким образом, чтобы планомерно уничтожать результаты интеллектуального труда. Если для "развлекательной" культуры это просто неприятно, то в случае ПО это является серьезнейшей проблемой, приводящей, зачастую, к прямому регрессу производительных возможностей. При этом, держатель копирайта от этого даже не богатеет, просто "система так устроена".

А уж если внимательно рассмотреть вопросы историографии, в каковой даже простое внимательное рассмотрение банальных, казалось бы, вопросов вроде "откуда известно что Америку открыл Х. Колумб" разверзает дебри недоумения, то становится очевидно, что этому вашему "человечеству" просто не светит (с учетом качества носителей, специфики конструирования цифровых форматов и общего восприятия проблемы на всех уровнях, даже вспышки на Солнце не понадобится).
Вообще, хорошо бы начать с определения, что такое "информация" и что имеет смысл сохранять. На философском уровне.

Дальше неплохо было бы понять, а кто конкретно, желательно поименно (звание, должность), заинтересован в этом консервировании реальности.

Потом уже можно к остальным вопросам переходить :-)
1. Философский уровень не нужен. Скакать можно от печки (копирайта). То к чему он применим, то и информация.

2. Проблема "общего блага" как она есть. См. Библиотека Конгресса.
1. Позиция крайне легковесная. Копирайт современная и более того временная концепция, покрывающая дай бог 0.001% того, что нужно хранить, если подходить к делу серьезно.
2. У Библиотеки Конгресса есть цель и это никакое не общее благо, разумеется. Общего блага быть не может, мы не на Альфа-Центавре живем.
Позиция нормальная. В настоящее время именно копирайт является основным препятствием для "любительского" хранения.

Распространена ситуация собаки на сене: владелец копирайта не дает другим хранить или копировать, но и сам не сохраняет.

И нет, это не промилле от желаемого, а более менее все ценное, так как "сырая" информация не поддается хранение вообще. С тем же успехом можно хранить случайные биты.

Специально обработанная информация подпадает под действие копирайта и смежных законов.

Что же до приведенного мной в пример казенного учреждения, то: "To make its resources available and useful to the Congress and the American people and to sustain and preserve a universal collection of knowledge and creativity for future generations".
(Расхождение между содержимым сарая и надписью на его стене пока опустим).

В целом же, "общее благо" это вполне устойчивая концепция в западной социальной мысли (которая восходит еще к Аристотелю) и в опираясь на которую абзацы, вроде процитированного мной выше и пишутся.

Поскольку иначе легко прийти к выводу, что оптимальное устройство общества - это племя "тумбо-юмбо" в каких нибудь тропиках существующее на подножном корму.

mikaprok

May 28 2018, 08:59:10 UTC 1 year ago Edited:  May 28 2018, 09:07:20 UTC

Копирайт крошечная часть обсуждаемой проблемы.

Сырые данные и есть биты. Их можно и нужно хранить. Проблема не в способе хранения, а в количестве и интересантах, платящих (много) за банкет.

Не вся обработанная информация такова.

Ну правильно, American people (граждане?) и Congress (тут уже противоречие, зачем обозначать подмножество специально?). Не говоря о верно указанном вами расхождении вывески и содержания.

Как быть не American people? У них другая информация?

Пока мысль окончательно не улетела в сторону племени "тумбо-юмбо", замечу, что концепция "общего блага" интуитивно кажется старой и понятной. В реальности это достаточно расплывчатое пятно, растекающееся при малейшей пальпации. Даже в теоретическом виде книжных формул, которые мало кто читает и еще меньше понимает до конца (тут без иллюзий), единого и последовательного определения "общего блага" на протяжении последних 2500 тысяч лет вы не найдете.

Для сравнения рекомендую поинтересоваться понятием "справедливости" и его эволюцией на протяжение хотя бы последних трех столетий.

Потом можно потихоньку, короткими перебежками и к нашим баранам :-)
=Вообще, хорошо бы начать с определения, что такое "информация" и что имеет смысл сохранять. На философском уровне.=

Информация - это информация (Норберт Винер). :) Фундаментальное понятие, с таким же успехом можно требовать определения терминов аля "идея", "энергия","бытие", и т.д.
Э, нет. Тут вопрос общий, но сопряженный с практикой. Что именно хранить.
Все, что можно :)
Никаких сил не хватит, сожалею.
По важным темам на сохранение сообщения есть пара дней.
Может просто весь этот газетный дискурс пока никому особо не интересен? Ну стерли статейку из WM - так и что. Кто-то заскриншотил, раз вы узнали :)
Вот когда речь о деньгах заходит, то там сразу тройное архивирование каждой закорючки в договоре. А тут NYT - meh ..
Держите карман шире :-) Если речь идет о деньгах, то потенциально спорная информация просто испаряется на глазах. Там сачком нужно ловить на лету.

По газетам просто виден масштаб проблемы.

alexey_neonov

May 28 2018, 11:48:28 UTC 1 year ago Edited:  May 28 2018, 11:55:19 UTC

Я скорее о том, что там где есть деньги - проблема segregated witness решена тысячей различных способов. А когда денег нет, то один есть один лишь WM на весь интернет.
Если речь о трансфере денег, то да, решения есть. Разной степени надежности и вероятности срабатывания, но не в этом дело. Физический процесс купли-продажи реализован.

Если речь об информации, которая может стоить серьезных денег в определенном контексте и она вдруг публично мелькнула в эфире, то ее детали и достоверность моментально утилизируются. Сами данные из источников стираются или заваливаются порожняком до степени неузнаваемости начального месседжа.