Пространственная автокорреляция является мерой того, в какой степени расположенные вблизи друг от друга объекты имеют сходные значения по некоторому показателю. Глобальные показатели автокорреляции позволяют охарактеризовать ситуацию в целом, определить наличие и степень пространственной взаимосвязи между объектами. Однако, они не всегда достаточно информативны для различий, которые могут существовать на более детальном географическом уровне. Глобальные меры пространственной корреляции представляют одно значение для всего набора данных.
Глобальный индекс Морана является хорошим инструментом для агрегирования набора данных в единое значение, которое фиксирует степень географической кластеризации или дисперсии. Однако, с его помощью нельзя определить области на карте, где сгруппированы определенные типы значений.
Глобальная пространственная корреляция не показывает, где значения сконцентрированы в кластеры или имеют рассеянную структуру. Чтобы детектировать такие значения необходимо использовать локальные индексы корреляции. Они фокусируются на взаимосвязях между каждым наблюдением и его окружением. Одной из метрик для измерения локальной пространственной корреляции является LISA (Local Indicators of Spatial Association).
LISA – это модификация глобального индекса Морана. Этот показатель рассчитывается аналогично глобальному индексу Морана, но для каждого значения в отдельности. С помощью него можно определить является ли каждый элемент данных статистически значимым с точки зрения пространственной связи с соседними элементами. Это помогает выявить кластеры и разреженные области в данных.
Для интерпретации локальной пространственной автокорреляции обычно строят диаграмму рассеивания Морана, известную по предыдущей статье, и делят ее на четыре квадранта.
Квадрант НН. Объекты в нем имеют относительно высокие собственные значения анализируемого показателя, окружены территориями также с относительно высокими значениями анализируемого показателя. Автокорреляция положительная.
Квадрант LL. Объекты в нем имеют относительно низкие собственные значения анализируемого показателя, окружены территориями также с относительно низкими значениями анализируемого показателя. Автокорреляция положительная.
Квадрант HL. В нем у объектов довольно относительно высокие собственные значения анализируемого показателя, окружены территориями с относительно низкими значениями анализируемого показателя. Автокорреляция отрицательная.
Квадрант LH. Объекты в нем имеют относительно низкие собственные значения анализируемого показателя, окружены территориями с относительно высокими значениями анализируемого показателя. Автокорреляция отрицательная.
Какие выводы можно сделать:
Большинство значений находятся в квадранте HH, что означает высокий уровень заболеваемости в окружающих районах.
Около трети муниципальных единиц имеют низкий уровень заболеваемости и окружены районами с аналогичным показателем.
Наблюдается большое количество муниципальных единиц с низкой долей заболевших, но окруженных районами c высокой долей заболевших.
Наименьшее количество случаев, когда район имеет небольшую долю заболевших, но окружен районами с высоким показателем.
Локальная пространственная автокорреляция наблюдается в двух ситуациях:
Значение наблюдения и среднее значение его окружения либо более похожи (квадранты HH или LL на диаграмме рассеяния)
Значение наблюдения и среднее значение его окружения сильно отличаются (квадранты HL, LH)
Теперь, понимая, что в наших значениях есть объекты, которые имеют высокие значение локальной корреляции, можно перейти к ее расчету. Вместе с расчетом самого коэффициента, рассчитывается p-значение, которое помогает определить, значим ли результат статистически (можно ли ему доверять).
Рассчитать значения LISA можно с помощью библиотеки pysal в питоне (ссылка на код). Посмотрим изменения значений LISA на всем наборе данных.
На графике наблюдается стремление к симметричному распределению локальной автокорреляции. Однако, виден перевес в сторону положительных значений, что говорит о преобладании положительной локальной пространственной автокорреляции (высокие значения расположены рядом с высокими, низкие рядом с низкими).
Посмотрим на карту, которая показывает динамику изменения значений локального индекса Морана (рисунок 1 слева). Видно, что на территории Санкт-Петербурга есть довольно много муниципальных образований, где значения LISA положительные, что означает положительную пространственную автокорреляцию.
Чтобы понимать, где у нас находятся высокие значения рядом с высокими, а низкие рядом с низкими посмотрим на расположение статистики LISA в квадранте диаграммы рассеяния Морана (рисунок 1 справа). Статистика указывает на то, существует ли положительная или отрицательная локальная связь в определенном квадранте.
Далее была рассчитана статистическая значимость полученных значений (рисунок 2 слева). Для ее определения были выделены муниципальные образования, где p-значения выше или ниже порогового значения в 5%, которое было использовано для проверки гипотезы. Видно, что в центральной части Питера сосредоточены кварталы, где значения LISA не прошли проверку на статистическую значимость. А вот районы окраин имеют куда более положительные статистические результаты.
Чтобы сосредоточиться на наиболее устойчивых по значению кварталах, необходимо объединить все три карты: информацию о значимости, отнесение значений к тому или иному квадранту и локальную статистику. Как результат, получаем карту, которая показывает те муниципальные образования, где выделяются кластеры с высокими или низкими значениями (рисунок 2 справа).
Анализ кластерной карты позволил выделить:
Устойчивое скопление низких значений в районе Западного берега Финского залива, но наличие в нем двух центров с высокими значениями.
Территорию с высокими показателями доли заболевших в районе южной части Санкт-Петербурга.
Большие колебание между долей заболевших в муниципальных образованиях южной и юго-восточной частях.
В итоге мы получили, что около 20% муниципальных образований имеют степень локальной пространственной ассоциации, достаточно сильную, чтобы отвергнуть идею чистой случайности и стать частью устойчивого пространственного кластера. В результате обнаружены наиболее устойчивые кластеры заболевших в муниципальных образованиях города.
Теперь посмотрим, как методика выделения кластеров, на основании локального индекса Морана подходит для точечных данных.
В данном случае для проведения анализа локальных пространственных показателей используется набор данных — точки с атрибутом «количество заболевших». Сначала построен график, который показывает распределение локального индекса Морана. Отметим, что большая часть точек имеет положительную пространственную корреляцию между собой.
Далее составлена карта с точками, объединенными в кластеры, которая показывает те дома, которые являются ядрами кластеров.
По большей части наблюдаются устойчивые кластеры высоких и низких значений. Видно, что большие значения в основном расположены в отдалении от центра города. Это объяснимо, так как население больше сосредоточено на окраинах города, чем в центральной части.
Таким образом, с помощью локального индекса Морана можно выявить пространственные кластеры, понять, где находятся нетипичные значения, и проследить тренды изменения значений данных в пространстве.