Статьи
2024-08-05 18:54 ГИС Полезные ресурсы

Открытые данные о численности населения

Время прочтения: 5 минут

Введение

В одной из недавних статей мы с вами говорили об открытых данных о городской застройке и землепользовании. В этой статье вы узнаете, откуда взять данные о численности населения в этой самой застройке или на более крупных участках местности. Все данные, конечно же, открытые, и могут быть скачаны совершенно бесплатно, главное только соблюсти требования лицензии, о чем у нас, разумеется, уже была статья.
В этом тексте я вам расскажу не просто о том, какие есть датасеты, но и как самому создать датасет с численностью населения, который можно использовать даже в геомаркетинговых исследования, и я видел, как большие компании использовали датасеты, собранные подобным образом.

Natural Earth

Natural Earth — не просто набор слоев, которые позволят сделать карту миру или отдельного региона, но и источник основных данных о странах мира, например, о численности населения или валового внутреннего продукта. Это самый простой и легко скачиваемый датасет, если вам нужна информация о численности населения целых стран. Информация о численности населения стран спрятана в слоях "Admin 0 – Countries" и "Admin 0 – Countries point-of-views". Кстати о последнем: если использовать слой с границами стран с точки зрения политики партии, то оно в Natural Earth весьма устаревшее и не то, что соответствует последней версии (на 04.08.2024) нашей Конституции. Так что если вам вдруг нужно сделать карту мира с населением стран, и вы находитесь в России, то, по моему скромному мнению, плиточные карты или иное абстрагирование от географических объектов — самый безопасный вариант.

Global Human Settlement Layer (GHSL)

GHSL — потрясающий постоянно пополняющийся датасет, или скорее даже набор датасетов. Раньше содержал только информацию о застройке, но сейчас содержит несколько интересных наборов данных о численности населения:
  • GHS-POP с численностью населения в каждой ячейке (размер ячейки от 100 м до 30 угловых секунд) в пятилетних интервалах с 1975 по 2030 годы;
  • ENACT-POP — датасет, в котором вы можете узнать численность ночного и дневного населения. Эта информация полезна в транспортном планировании, оценке безопасности территории, насколько она устойчива (sustainable) и не только;
  • GHS-FUA — датасет не с численностью населения, но тоже полезный, так как он косвенно может кое-что сказать о населении. В датасете представлены FUA (Functional Urban Areas) — это что-то типа того, что в российских источниках называют агломерациями. С помощью алгоритмов определены городские центры и территории, из которых 15% населения и более едут в городской центр для работы или учебы.
С помощью GHSL можно сделать вот такую карту изменения численности населения (гайд - https://www.youtube.com/watch?v=qTDf5VVnjMM&t=4s , источник изображения - https://github.com/milos-agathon/map-population-change/?tab=readme-ov-file)

Kontur Population Dataset

Отличный датасет с численностью населения, при подготовке которого использованы GHSL и множество других источников данных, в том числе социальные сети и Microsoft Building Footprints. Датасет сделан не просто применительно к гексагонам, а к ячейкам H3 трех разных размерностей: 400 м, 3 км, 22 км. Легко скачивается в формате gpkg, и даже есть разбивка на данные по странам мира. Скачать можно отсюда.
С помощью этого датасета можно создавать подобные карты (источник изображения и гайд https://www.youtube.com/watch?v=qTDf5VVnjMM&t=4s)
Хотя конечно у Контура встречаются и такие приколы. Подобное, кстати, есть и в GHSL (источник - https://t.me/map_lounge/161)

WorldPop

Очередной растровый датасет с численностью населения по ячейкам 100 м или 1 км. Главное отличие от предыдущих в том, что есть не просто численность населения, но и иная демографическая информация, например: половозрастной состав населения или рождаемость. Скачать можно отсюда. Данные в формате GeoTIFF.
Пример карты численности населения от Артема Орешина на основе датасета, у нас, кстати, есть гайд, как вы своими руками сможете сделать такое быстро и легко с помощью QGIS и AerialOD

Росстат

Ну конечно, куда без Росстата. Из минусов: данных в привычных нам пространственных форматов нет, но есть куча таблиц во всеми любимом вордике, из которых можно сделать файл формата csv, а потом с помощью объединения по названию региона сделать полноценную карту.
Наиболее удобным в этом плане мне кажется документ “Регионы России. Социально-экономические показатели". Данных очень много, тут вам и численность населения, и доля семей, которым выплачиваются субсидии на оплату коммуналки, и даже сколько декалитров алкогольной продукции продано населению по каждому субъекту РФ. В общем, пространство для исследований практически неограниченное.

OpenStreetMap (OSM)

OSM — пожалуй, самый простой и универсальный датасет, который можно приспособить для чего угодно (сделано автором)
OSM не содержит данных о численности населения, но на основе него можно сделать свой собственный датасет. Тут я не дам вам рыбы (ссылки на датасет), а расскажу вам, как ловить рыбу (сделать датасет).
В OSM есть информация о зданиях. Для каких-то частей света информации больше или меньше, но все может быть дополнено информацией из других датасетов, о которых мы рассказывали в статье про открытые данные о городской застройке. Наша задача — получить слой зданий с численностью населения, но откуда мы возьмем население?

Чтобы получить данные по населению по зданиям, нам будет нужно:

  • здания (OSM);
  • среднее количество кв. метров жилья на человека (общую площадь жилья делим на численность населения по региону из Росстата, что упоминали выше);
  • иная информация, которая может уточнить данные, но об этом позже.

Чтобы получить наш датасет, нужно проделать следующее:

  1. Посчитать общую площадь здания. Для этого умножаем его площадь на количество этажей (у OSM смотрим тег level). Этажи можно дополнительно добавить из других источников, например, геокодировать информацию о зданиях из данных фонда развития территорий. Главное запомнить, что нас интересуют только жилые здания, поэтому тут придется провести классификацию зданий на жилье/не жилье.
  2. Теперь общую площадь каждого жилого здания делим на среднее количество кв. метров жилья на человека. Для индивидуальных жилых домов часто видел, что ставят автоматически численность населения как 3 человека в доме, главное, не перепутайте индивидуальные жилые дома с дачами (но бывают и дачи, где люди живут, так что тут не все так просто).
Вот и все, что нужно сделать для создания датасета. Дьявол, конечно же, в деталях, придется фильтровать дома, уточнять информацию из других источников, но если вы хорошо повозитесь с данными и вам повезет, то вы получить очень добротный и дорогой во всех смыслах датасет.
Материал подготовил Александр Зуев