Время прочтения: 4 минуты
Глобальная и локальная пространственная автокорреляция — это понятия, связанные с анализом пространственных данных.
Глобальная пространственная автокорреляция учитывает общую тенденцию в наборе данных, и ее анализ позволяет сделать выводы о степени кластеризации в наборе. Локальная автокорреляция фокусируется на отклонениях от глобального тренда на гораздо меньшем уровне, чем на всем наборе данных.
В этой статье мы разберемся с определением глобальной пространственной корреляции, а позже рассмотрим локальную. В конце статьи – ссылка на код, чтобы лучше разобраться с этими понятиями и повторить для своих данных.
Что важно знать
Пространственная автокорреляция – инструмент, который оценивает, есть ли в объектах кластеры или они распределены разбросанно, или случайно.
Индекс Морана – статистический показатель, который оценивает общую структуру данных и используется при определении пространственной автокорреляции.
Исходные данные
Пространственная матрица весов
Для проведения пространственной автокорреляции необходимо выбрать пространственную матрицу весов, которая позволит оценить корреляцию между значениями атрибутов объектов, основываясь на их пространственном расположении.
В пространственной матрице весов каждому объекту присваивается вес, который зависит от расстояния до других объектов или смежности с ними. Это позволяет оценить степень пространственной зависимости между объектами и выявить пространственные закономерности в данных. Используем матрицу весов на основе расстояния и после расчета матрицы весов стандартизируем ее значения.
Spatial lag или пространственное отставание
Суть глобальной пространственной автокорреляции сводится к обобщению связи между значением и его соседями, поэтому начать исследования глобальной пространственной автокорреляции нужно с понятия spatial lag или пространственное отставание.
Для расчета пространственной автокорреляции, важно понять, как меняется spatial lag. Пространственное отставание отражает, как поведение переменной в одной точке может быть связано с поведением переменной в соседних, ипомогает сгладить различия между соседними наблюдениями. Математически пространственное отставание представляет собой локальное среднее значение в окрестности каждого наблюдения. При визуализации значений пространственного отставания уменьшаются резкие различия между соседними наблюдениями.
Мы видим, что пространственное отставание обобщило значение доли заболевших.
Глобальный индекс Морана
Поняв, как меняется пространственное отставание, можно перейти к расчету индекса Морана.
Процесс расчета глобального индекса Морана можно разбить на несколько шагов:
- Для каждого наблюдения рассчитывается пространственное отставание.
- Значения пространственного отставания соседей перемножаются между собой.
- Сумма всех произведений складывается и делится на сумму квадратов пространственного отставания всех наблюдений.
- Результат умножается на количество наблюдений минус 1.
Интерпретация значений индекса Морана
При значении индекса Морана больше нуля наблюдается положительная пространственная автокорреляция — то есть значения наблюдений в соседних территориях похожи. При отрицательных значениях индекса Морана пространственная корреляция отрицательная, наблюдения на соседних территориях отличаются. В случае, когда индекс Морана равен нулю, наблюдения на соседних территориях расположены случайным образом.
Важным этапом в анализе значений индекса Морана является построение пространственной диаграммы рассеяния Морана. Она является графическим представлением индекса.
Для ее построения по оси абсцисс необходимо отложить стандартизированные значения исследуемого показателя, а по оси ординат — значения пространственного отставания. На диаграмме отображается линия, наклон, которой равен глобальному индексу Морана.
На диаграмме можно заметить положительную корреляцию между переменными, что указывает на наличие положительной пространственной автокорреляции. Другими словами, доля пациентов среди всего населения муниципальных образований демонстрирует положительную пространственную автокорреляцию — муниципальные образования с высокой долей пациентов расположены близко друг к другу, как и муниципальные образования с низкой долей пациентов.
Итог
Глобальные показатели пространственной автокорреляции — это сводная статистика для всего набора данных. Они не позволяют выделить области на карте, где данные сгруппированы или разрознены. В свою очередь, локальные показатели пространственной автокорреляции рассматривают взаимосвязь каждого наблюдения с его окружением, поэтому после анализа глобальной автокорреляции следующим шагом будет расчет локальных показателей.
Код для построения карты и графика: https://colab.research.google.com/drive/1Sc8_59XVd0SVle1Y5J_IDzF-QSREoy9X?usp=sharing
Материал подготовила Анна Пикулева