Время прочтения: 6 минут

Замечали ли вы, что границы влияют на то, как ведут себя данные при их изучении? Например, что значения у границ исследуемой территории становятся меньше или больше, а при агрегации одних и тех же данных к территориям разных форм и размеров мы получаем различные результаты?
Всё это проявления проблем границ. В этой статье вы узнаете, какие они бывают, в чем проявляются, как с ними бороться и как их избежать.
Классификация проблем границ
Проблемы границ (boundary problem) — общий и часто используемый термин, обозначающий все проблемы, связанные с границами, возникающие при анализе и визуализации пространственных данных.
Наиболее частые примеры проблем границ:
- эффект границ (edge effect), который связан с тем, что данные и результаты анализа у границ области исследования могут искажаться из-за недостаточного количества соседей по сравнению с теми, что находятся у границ.
- проблема модифицируемых единиц площади (modifiable areal unit problem, MAUP), которая связана с тем, что при агрегации одних и тех же данных к различным по форме и площади единицам мы можем получать различные результаты.
Возможно, вы уже встречались с такими эффектами, но в источниках они могли называться по-разному, потому что общепринятой классификации или терминологии нет. Можно встретить случаи, когда понятие edge effect используют тождественно равным boundary problem, или увидеть иные термины, которые обозначают то же самое.
Эффект границ (edge effect)
Эффект границ возникает, когда результаты анализа данных или работы модели демонстрируют у границы области исследования результаты, отличающиеся от остальной выборки. Чаще всего это проявляется в заниженных значения переменных.
Представьте, что мы взяли какую-то область и результаты измерений для интерполяции или для расчета пространственной автокорреляции. Если мы используем данные только внутри нашей области, то возникнут искажения, которые повлияют на результаты анализа:

Для примера проинтерполируем значения вероятности выпадения снега в Кировской области на Новый год, используя только метеостанции в границах нашей территории и за границами, — и получим разные результаты интерполяции. Если в первом случае размах составил около 1,5 %, то при использовании вероятностей с соседних станций он увеличился до практически 5 %, и даже появились территории с почти 100 % шансом выпадения снега на Новый год.

Эффект границ возникает из-за того, что большинство границ, которые мы используем — искусственные, и они могут отсекать части рек, лесов и иных однородных объектов. Сколько бы не существовали эти границы, реальный мир может их просто игнорировать.
Если вы для своей работы хотите использовать такие методы, как интерполяцию, измерение пространственной автокорреляции, географически взвешенную регрессию или оценку плотности, то искусственные границы влияют на полученные результаты и приводят к систематической проблеме: центральные области исследования имеют более сильные пространственные связи, чем приграничные, значения которых могут казаться случайными.
Эффект границ образует искажения из-за того, что точки в центре области исследования имеют больше соседей, и они фактически со всех сторон окружены соседями. У точек на границе области исследования соседей нет, так как они были искусственно отсечены при анализе, либо данные не собирались. Если говорить про административные границы, так бывает часто.

Как бороться с такой аномалией? Способов немного, но они есть, и их можно использовать в QGIS. Самое простое и надежное — искусственно увеличивать область исследования с помощью буфера и использовать при анализе значения всех измерений в определенном радиусе. Еще есть вариант использовать веса, с помощью которых мы можем искусственно завышать значения у краев, чтобы немного срезать эффект границ.
Идеального метода борьбы с этим нет, но ключевой смысл понимания эффекта границ в том, что если вы обрезаете данные для работы, то, скорее всего столкнетесь с эффектом границ. Если же вы планируете полевые экспедиции для исследования какого-то признака, то есть случаи, когда стоит провести измерения за границами вашей области исследования, о чем также советует классик географии Вальдо Тоблер. Второй закон географии Тоблера: «феномен, внешне расположенный к географической области интереса, влияет на то, что происходит внутри нее».
Проблема модифицируемых единиц площади (modifiable areal unit problem — MAUP)
Проблема модифицируемых единиц площади — это искажение, которое случается из-за способа группирования пространственной информации. Выделяют два типа таких искажений: масштабный эффект (scale effect) и зональный эффект (zonal effect).
Масштабный эффект проявляется, когда в зависимости от разного размера пространственной единицы, для которой мы агрегируем данные, отличаются пространственные паттерны распределения величины.

Чтобы охарактеризовать этот эффект, часто цитируют второй закон географии, но уже не Вальдо Тоблера, а Джузеппе Арбии: «Все связано со всем остальным, но вещи, наблюдаемые при низком пространственным разрешении, более связаны, чем вещи, наблюдаемые при более высоком».
Зональный эффект наблюдается, когда масштаб анализа остается неизменным, но форма единиц агрегирования меняется. Это можно наблюдать, например, если одни и те же данные, вроде мест совершения преступлений, агрегировать для квадратной и для гексагональной сетки. Это считается проблемой, так как анализ зависит не от качества данных, а от способа их агрегирования:

Чтобы не попасть в ловушку проблемы модифицируемых единиц площади, принято анализировать данные в разных масштабах и в разных вариантах агрегирования: единицы административного деления, водосборные бассейны, квадратные и гексагональные сетки. Чем больше вариантов, тем меньше шанс что-то упустить.
Проблемы границ вносят свои искажения при пространственном анализе, и их стоит учитывать, потому что нам вряд ли получится от них полностью избавиться. Но если мы приложим больше внимания к данным и процессам, которые мы анализируем, то сможем сгладить эффект и уменьшить вероятность получить ошибочные выводы.
Материал подготовил Александр Зуев