В этой статье мы поговорим об открытых данных — словосочетании, которое вы, скорее всего, уже слышали, а если не слышали, то готовьтесь открыть для себя окно таких возможностей, о котором Петр I не мог и мечтать. Я не планирую сильно углубляться во всю идеологию открытого всего, а постараюсь побольше рассказать об открытых данных, какую пользу они могут принести, где их взять, да и в принципе рассказать, что скрывается за этим понятием.
В современном мире открытыми данными чаще всего называют данные, которые доступны по лицензии Creative Commons, точнее по одной из видов этой лицензии. У нас в Картетике есть про них отдельная статья. Если коротко, то эти данные вы можете бесплатно скачать и использовать в своих проектах, иногда даже в коммерческих. Самое главное, что нужно запомнить — смотрите особенности лицензии, где-то, например, нужно обязательно указывать автора открытых данных. Открытость данных не освобождает от обязанности соблюдать условия их предоставления.
Помимо этого, под открытыми данными понимается информация, доступная в машиночитаемом виде. То есть, пдф, закинутая на стенку вашей страницы в вк (или как это сейчас называется) не является открытыми данными, а является тем, что Тим Бернерс-Ли, один из тех людей, кто придумал всемирную паутину, назвал бы открытым документом. Под открытыми данными подразумеваются чаще всего различные таблицы с информацией, в форматах, которые позволяют эти данные анализировать, модифицировать и визуализировать, продолжать можно долго. Это может быть экселевская таблица, выписка из Роскадастра в формате xml или просто слой со зданиями в формате geopackage.
И тут мы можем выявить еще одно свойство открытых данных, которое нам важно, у них есть признак, который позволяет связать информацию об объектах из одного источника с информацией из другого источника. Если у нас есть таблица с названиями метеостанций и координатами, то мы можем связать ее с таблицей, в которой есть информация о названиях метеостанций и данными о средней температуре июля и января, зафиксированной на них, что позволит нам сделать карту средних температур. Тут мы подходим как раз к исторической части нашей статьи: как и для чего пришла идея делать данные открытыми.
История появления открытых данных
Концепция того, что если мы будем делиться данными, это поможет нам (человечеству) быстрее двигать науку и общество в светлое будущее, появилась как минимум в середине 50-х годов прошлого века. Чуть позже различные государства для того, чтобы сделать систему управления прозрачнее для общества, начинают предоставлять доступ к некоторым данным для обычных граждан, например, в США это произошло в 1966. С появлением всемирной паутины процесс открывания данных и их анализ все большим количеством различных ученых, служб, журналистов и прочих энтузиастов стал набирать обороты. Стал возникать запрос на то, чтобы государство делало информацию, которую оно собирает на деньги налогоплательщиков, более открытой ради общественного блага.
В 2007 году произошло важное событие, связанное с открытыми данными. На конференции в Себастополе, в штате Калифорния, группа экспертов по данным сформулировала восемь принципов открытых данных, вот они сверху вниз:
1.Полнота: данные должны быть представлены в максимально полном виде, за исключением случаев, когда это противоречит правовым или этическим ограничениям (например, защита персональных данных).
2. Первичность: данные должны быть собраны у источника с наивысшей возможной степенью детализации, не подвергаясь агрегации или модификации.
3. Своевременность: данные должны быть доступны как можно скорее, чтобы они оставались актуальными и полезными.
4. Доступность: данные должны быть доступны для максимально широкого круга пользователей, для любых целей и в прямом смысле предполагает доступ к данным без регистрации, смс или других ограничений.
5. Машиночитаемость: данные должны быть структурированы таким образом, чтобы их можно было легко обрабатывать автоматически, например с использованием общеиспользуемых форматов, таких как CSV, JSON или XML.
6. Недискриминация: данные должны быть доступны всем пользователям на равных условиях.
7. Не-имущественность (non-proprietary): данные должны быть доступны в форматах, которые не ограничены патентами или другими правами интеллектуальной собственности.
8. Лицензирование: данные должны быть свободны от ограничений на использование, модификацию и распространение. Это обычно достигается путем использования открытых лицензий типа Creative Commons.
Зачем раздавать данные бесплатно
Термин "открытые данные" часто употребляется в контексте открытых государственных данных, так как государство зачастую является главным держателем и собирателем статистической информации. Но зачем ему тратить ресурсы, чтобы кто-то со стороны мог ее получить?
Существуют разные точки зрения и аргументы за то, чтобы государство раскрывало различную информацию. Наиболее прагматичным, на мой взгляд, является тот факт, что на основе открытых данных может появиться (и появляется) множество проектов, которые перерастают в коммерчески успешные организации, которые приносят государству деньги в виде налогов.
Помимо этого есть и другие аргументы в пользу использования открытых данных, связанных с развитием гражданского общества, стимулированием научных исследований, принятием управленческих решений бизнесом и органами власти. Но самое главное, использование открытых данных приносит пользу людям, без них вы бы, например, не смогли узнать курсы валют, информацию о государственных закупках, сделать презентацию с помощью Википедии (это тоже пример открытых данных) или узнать, в каком году построен ваш дом.
Где можно больше узнать про открытые данные
У нас в Картетике есть несколько статей про открытые пространственные данные, где их взять и как скачать, но перед этим не могу не упомянуть про человека, который по моему скромному мнению знает об открытых данных больше всех в России — Иване Бегтине. Он постоянно публикует информацию об открытых данных у себя в телеграм-канале, продвигает использование и появление открытых данных в России, а еще он приложил руку к полезному списку открытых данных на русском языке. На всякий случай сообщаю, что во-первых, я перечислил не все заслуги Ивана, а во-вторых, это не рекламный пост.
Теперь расскажем о наших статьях про открытые данные. Мы периодически пишем про любимый OpenStreetMap, кроме него из открытых данных только Википедию используют чаще. Это настоящая сокровищница пространственных данных со всей планеты, у нас есть аж две статьи, посвященные скачиванию данных из OSM сразу множеством способов.