Статьи
Полезные ресурсы Туториалы Данные

"Места" от Foursquare — как скачать датасет с более 100 млн. POI

Время прочтения: 2 минуты
В конце ноября компания Foursquare выложила в открытый доступ глобальный датасет с огромным количеством POI (Point Of Interest) — это точки интереса или places, как их называют в самом датасете: Open Source POI Data – Foursquare OS Places.
Данные доступны в том числе и на Россию, и в статье рассказываем, как их получить.

Данные в датасете Places

Датасет Places от Foursquare — это векторные данные о более 100 миллионах точек интереса по всему миру. Кафе, рестораны, парикмахерские, офисы, магазины и даже просто точки с адресами. В атрибутах в зависимости от типа данных есть название места, его тип, адрес, контакты или только название, тип индустрии и классификация места. Подробнее можно увидеть в схеме данных Places OS Data Schemas.
Качество данных варьируется, и информация о достоверности доступна только в платной версии данных, поэтому будьте бдительны, готовьтесь дополнительно фильтровать данные и верифицируйте их другими источниками. Я лично использовала этот датасет только в паре регионов Испании, и мне нужны были только категории конкретных компаний. В итоге я оставила данные из этого датасета только для тех случаев, когда не были доступны другие источники, и они оказались более полными и достоверными. Но “на безрыбье и рак рыба”, так что датасет подойдет отлично для регионов, где и так все недоступно или для задач грубой оценки.

Как скачать: способ от Foursquare через AWS

Foursquare предложил удобные способы подключиться к их AWS (Amazon Web Service) и забрать данные в свою базу данных. Если у вас есть аккаунт и опыт работы с AWS и AWS CLI и вас не пугает Athena или Spark, то по ссылке вы найдете всю необходимую информацию: Access FSQ OS Places.

Как скачать: удобный способ от Fused

Для тех же, кто, как и я, просто ГИС-специалист с желанием посмотреть и покрутить новые данные, я нашла способ попроще. Команда Fused сделала два сервиса для более удобного скачивания этих данных.
Один из них аналогичен способу Foursquare — это ссылки на S3-хранилища данных, только данные доступны в сформированных наборах. По ссылке Source Cooperative для тех, кому по каким-то причинам не подошел официальный ресурс Foursquare, даны S3-ссылки во вкладке “Access Data”
Там же есть прямое скачивание файлов. Он подойдет тем, кто хочет скачать все данные, но без AWS. По той же ссылке Source Cooperative во вкладке “Browse” данные доступны в формате GeoParquet.
И второй — визуальный сервис скачивания данных через карту. Он не подойдет тем, кто хочет скачать данные на всю страну, но подойдет тем, кого интересует конкретный город или территория.
По ссылке Workbench Foursquare_Open_Source_Places открывается предпросмотр данных. На блоки с кодом можно не обращать внимание, скачать данные можно и без понимания, что там происходит. С карты доступно для скачивания два типа данных: границы блоков доступных данных и сами данные. Когда видны точки на карте — скачиваются точки, когда видны желтые границы — скачиваются границы блоков. Правда, способа скачать данные с карты по границам я так и не нашла, возможно, это как раз доступно через код.
Попробуем скачать данные. Приближаемся к нужной территории. Если точек не видно и ничего не загружается, значит, всю территорию за раз загрузить не получится, придется приблизиться еще немного.
Когда вы приближаетесь и появляются точки, происходит процесс подгрузки данных. Подождите, когда он завершится, и нажмите кнопку “Скачать данные на видимую область”.
Если вдруг все работает медленно, и это мешает вам найти нужную территорию, поставьте процесс на паузу кнопкой “Freeze”, а потом включите загрузку обратно, когда приблизитесь туда, куда было нужно.
Остановка процесса
И снова запуск

Данные в QGIS

Данные с визуального сервиса Fused скачиваются в формате GeoJSON в системе координат WGS84 (EPSG: 4326) и легко открываются в QGIS. Правда, набор атрибутов соответствует схеме "Категории", а не "Места" (см.Схемы данных).
Полный набор атрибутов будет доступен только у тех данных, которые вы скачаете напрямую из Forsquare через AWS или в parquet файлах, доступных через Fused Source Cooperative. Для примера, я скачала оттуда самый первый файл от 03.12.204 0.parquet. Файлы с этим расширением открываются в свежих версиях QGIS (в примере используется версия 3.38).

Где еще можно найти открытые данные о POI – точках интереса и организациях?

- OpenStreetMap. В этой открытой базе можно найти что угодно, в том числе точки интереса. Но точность, наполненность и свежесть данных зависит от региона.
- Overture Maps. Хотя частично Overture и основан на OSM, их датасет Places никак не повторяет POI из OpenStreetMap. И в нем точность, наполненность и свежесть данных также зависит от региона.
А если вы хотите больше узнать про геоданные, их анализ и работу с ними в распространенной и открытой ГИС, приходите на курс "Введение в QGIS", где за несколько недель вы узнаете все основы работы с геоданными на практике
Материал подготовила Наталья Волгушева