Статьи
ГИС

Особенности кластеризации пространственных данных

Кластеризация — это процесс группировки набора объектов таким образом, чтобы сходство между объектами внутри одного кластера было максимальным.
Карта с точками до и после кластеризации в Санкт-Петербурге. До кластеризации (1), После кластеризации (2).
При работе с пространственными данными их часто полезно превратить в кластеры. Например, чтобы:
  • выявить “горячие точки” — места наибольшей плотности заболеваний, преступности, ДТП;
  • объединить районы со схожими социальными условиями;
  • выявить места с одним типом землепользования.
Пример кластеризии пространственных данных: в кластеры объединились кварталы, схожие по социально-экономическим условиям. Картинка из статьи El Mahrsi et al., 2014..
Эти примеры показывают, что кластеризацию пространственных данных отличает то, что мы должны учитывать взаимное расположение объектов и помнить основные особенности.
Пять особенностей при кластеризации пространственных данных
1.Возможность обнаружение кластеров неправильной формы
Необходимо, чтобы алгоритмы могли учитывать неправильные формы. Самый популярный алгоритм кластеризации, K-means, лучше всего справляется с обнаружением скоплений сферической формы. Алгоритмы кластеризации на основе плотности, например, DBSCAN, больше подходят для поиска кластеров произвольной формы, которая чаще встречается у геоданных.
2.Количество кластеров определяется расположением данных
Грамотный анализ пространственных данных не должен предполагать наличие четкого количество кластеров. В некоторых случаях данные могут содержать несколько кластеров, которые пересекаются или находятся вблизи друг друга, поэтому лучше использовать алгоритм, который обнаружит естественные границы между кластерами.
3.Учет выбросов
Пространственные данные часто содержат выбросы — значения, которые сильно выделяются из общего набора данных. Точность анализа зависит от их учета, поэтому, алгоритмы, используемые для обработки, должны быть способны работать с нетипичными значениями. Например, алгоритмы, основанные на плотности, могут более эффективно обрабатывать шум, в отличие от алгоритмов на основе расстояния.
4.Параметры, подаваемые на вход алгоритму, должны учитывать расстояние между объектами
Большая часть алгоритмов кластеризации чувствительна к заданным пользователем параметра (их также называют гиперпараметры). Даже плотностные алгоритмы, на вход которым не нужно задавать определенное число кластеров, нуждаются в тщательном выборе порога плотности.
5.Определение кластеров с различной плотностью
В одном датасете схожие данные могут иметь разную плотность, поэтому алгоритмы кластеризации должны обрабатывать пространственные данные с различной плотностью. Этого можно добиться путем долгого подбора гиперпараметров у классических плотностных алгоритмов или зная тонкости работы более продвинутых алгоритмов.
Кластеризовать пространственные данные — задача, к которой нужно подходить, хорошо понимая уникальные особенности набора данных и зная общие принципы кластеризации геоданных.
Бонус: в блоге Naftali Harris вы можете посмотреть на работу алгоритмов k-means и DBSCAN. О работе этих алгоритмов расскажем подробнее в следующих постах.

Автор: Анна Пикулева