Хороплеты (или фоновые картограммы, англ. choropleth map) — это картографическое изображение, где цветом или штриховкой показаны значения какого-то показателя по территориальным единицам. На сегодняшний день хороплеты — возможно, самый популярный вид тематических карт. Одна из причин, почему хороплеты так популярны — это то, что у нас часто есть геоданные, привязанные к административным единицам, и многие привыкли считать, что мир разделен на отдельные части, такие как округа, области и районы.
На популярность хороплетов большинство картографов возразит, что они используются слишком часто и не по назначению, если географические явления не привязаны к административным единицам. Например, типы почв, возрастные демографические показатели или инфекционные заболевания не всегда зависят от границ районов и редко резко меняются на этих искусственных границах. Чем меньше объект картографирования привязан к границам, тем меньше смысла в хороплетах.
Когда применяются хороплеты
(1) если данные представлены в виде административных единиц (например,округа, области, страны),
(2) данные приведены к стандартам или коэффициентам,
(3) и они имеют непрерывную статистическую поверхность — другими словами, вы можете измерить явление в любой точке пространства ("ноль" — это тоже допустимое значение).
Например, количество людей — это число, и оно не подходит для карт-хороплетов, а количество людей на квадратный километр — это отношение, оно представляет собой непрерывную статистическую поверхность и, следовательно, подходит для хороплетов. Даже если оно падает до нуля в необитаемых местах, все равно в каждом месте есть значение данных
Примеры данных, которые подходят для карт-хороплетов:
карта подоходного налога по странам мира;
карта, показывающая число родившихся на 100 тыс. человек по округам США;
карта, показывающая процентное изменение заболеваемости раком кожи с 1990 по 2010 год по штатам Австралии;
карта мира процентного соотношения населения моложе 18 лет по странам мира;
карта, показывающая процентное увеличение стоимости жилья с 1980 по 1990 год по провинциям Канады.
Пример хороплетов с разделением данных на классы
Ниже — фоновая картограмма с пятью классами, в которой используется последовательная палитра цветов (от светлого к темному) с классами равных интервалов.
Для больших значений в последовательных цветовых палитрах традиционно используются более темные цвета. Цвета границ (здесь это линии округов и штатов) влияют на внешний вид карты, поэтому бывает интересно экспериментировать с сочетаниями цветов заливки и обводки. Можно даже не рисовать административные границы (оставить их без обводки, только с заливкой), но, возможно, без этих границ аудитории будет сложнее находить на карте нужные места.
Количество классов данных
Чтобы перестраховаться, ограничьтесь 3-7 классами данных на карте (хотя при принятии этого решения следует учесть цели и данные). Например, политические карты США часто имеют только два класса (хорошо известные карты "красных" и "синих" штатов), или же бывают карты, которые хотят просто выделить места выше и ниже среднего уровня по стране.
Чем больше классов вы используете, тем меньше обобщение данных (что хорошо), но это происходит за счет снижения разборчивости и связанного с этим риска ошибок при чтении карты, поскольку большее количество цветов сложнее увидеть и правильно напечатать (что плохо).
Ключевой вопрос — какой будет степень обобщения? Карту с тремя классами/цветами (например, низкий, средний, высокий) будет легко увидеть и запомнить, но она может упустить важные аспекты данных и создать искусственные географические паттерны, объединив множество мест, которые на самом деле совершенно разные. Идеального количества классов для карты не существует, поэтому экспериментируйте.
Не знаете, сколько классов использовать? Посмотрите на распределение данных в виде гистограммы (см. примеры ниже). Есть ли в данных явные кластеры? Есть ли в диапазоне данных большие разрывы, которые позволяют говорить о компактных классах данных? Если да, то выберите такое количество классов и расположите эти классы вокруг этих кластеров.
Метод выделения классов
Как не существует единственно верного количества классов, так и не существует наилучшего способа классификации данных по диапазонам. Посмотрите на гистограмму (или диаграмму рассеяния), чтобы определить общий облик ваших наблюдений. Цель классификации данных в первую очередь состоит в том, чтобы поместить места с одинаковыми показателями в один класс, а места с очень разными значениями разделить на разные.
Форма этой гистограммы позволяет предположить, что лучше всего подойдет разбить данные на три или четыре класса данных. При отсутствии каких-либо других признаков "провалы" указывают на естественные места для разбиения данных.
Метод равных интервалов
Равные интервалы делят данные на классы равного размера (например, 0–10, 10–20, 20–30 и т.д.) и лучше всего работают с данными, которые в целом распределены по всему диапазону.
Внимание: избегайте равных интервалов, если в данных есть перекос в одну сторону или если у вас есть один или два значительных выброса. Выбросы в этом случае, скорее всего, приведут к появлению пустых классов, что приведет к потере хороших классов, где нет наблюдений. Поскольку в приведенных выше данных о гостинице нет очень больших выбросов, это распределение данных хорошо работает с равными интервалами.
Квантили
Квантили создают привлекательные карты, на которых в каждом классе будет размещено равное количество наблюдений: Если у вас 30 округов и 6 классов данных, то в каждом классе будет по 5 округов. Проблема с квантилями в том, что в итоге можно получить классы с очень разными числовыми диапазонами (например, 1–4, 4–9, 9–250... последний класс просто огромен). Квантили также могут разделять места с очень похожими значениями и объединять места с очень разными, что нежелательно, поэтому используйте гистограмму, чтобы проверить, происходит ли это.
Внимание: в приведенном выше примере с гостиничными номерами квантиль привел к сомнительному разбиению класса, убрав часть третьего кластера обратно в класс 2, несмотря на то, что по численным характеристикам она была гораздо ближе к другим наблюдениям в классе.
Естественные разрывы
Естественные разрывы (natural breaks) — это своего рода "оптимальная" схема классификации, которая находит такие разбиения классов, при которых (для заданного числа классов) минимизируется внутриклассовая дисперсия и максимизируются межклассовые различия. Недостатком этого подхода является то, что каждый набор данных генерирует уникальное классификационное решение, и если необходимо провести сравнение между картами, в атласе или серии (например, по одной карте за 1980, 1990, 2000 гг.), то лучше использовать единую схему, которую можно применить ко всем картам.
Выделение классов вручную
Часто возникает необходимость задать один или все разрывы классов вручную. Например, есть ли важные точки разрыва, которые должны быть четко привязаны к разрывам классов? Должен ли один из разрывов быть средним значением выборки? Является ли наша карта частью серии, где необходимы одинаковые классы для всех карт (чтобы цвета всегда относились к одним и тем же числам на любой карте)? Дает ли какой-либо из методов хорошее решение, которое можно улучшить с помощью незначительной корректировки классов? Если да, то не стесняйтесь задать эти классы самостоятельно.
Хороплеты без классов
Хороплеты без классов — это привлекательная альтернатива традиционным хороплетам с классами, хотя их достоинства вызывают жаркие споры в картографии, а 30 с лишним лет тестирования выявили как их достоинства, так и недостатки. Сторонники этих карт, впервые предложенных Уолдо Тоблером в начале 1970-х годов, считают, что они позволяют избежать сложной (и почти всегда несовершенной) проблемы объединения данных в классы (например, 0-10, 11-20, 21-30, ...). Критики традиционных хороплетов с классами говорят, что классификация данных — это мощная форма фильтрации данных, которая заглушает важные детали на карте, легко поддается злоупотреблению для изменения того, что говорит карта, и часто воспринимается читателями как должное. Карты без классов избегают этой проблемы, "позволяя данным говорить самим за себя" и проявляя даже незначительные различия между населенными пунктами в виде тонких изменений в цвете.
На хороплетах без классов каждому уникальному значению данных присваивается свой цвет: например, показатели безработицы в 50 штатах США ранжируются от наименьшего к наибольшему и располагаются вдоль непрерывной цветовой рампы от низкого к высокому (см. ниже). Если, например, существует большой численный разрыв/переход от штата с третьим по величине уровнем безработицы к штату со вторым, то и цвет будет соответственно больше — данные будут расположены пропорционально вдоль цветовой рампы.
Обратите внимание, как на карте ниже легко считываются географические особенности уровня безработицы по округам. Однако эти данные трудно сравнить или проранжировать: попробуйте точно расположить округа Калифорнии от самого низкого к самому высокому... это практически невозможно.
У хороплетов без классов есть как минимум три основных недостатка. Во-первых, хотя идея дать нашим данным возможность говорить самим за себя привлекательна, мы часто сталкиваемся с тем, что они слишком много хотят сказать. Картографы уже давно полагаются на классификацию для подавления случайного шума или незначительных вариаций, чтобы выделить крупные, основные различия.
Например, простая карта безработицы с двумя классами и с использованием только двух цветов быстро покажет, находится ли данное место выше или ниже среднего уровня по стране; а вот более подробная классификация может оказаться излишней.
Во-вторых, обширные и тщательные исследования показали, что людям трудно сопоставить цвета на неклассифицированных картах с цветами в легенде, поскольку они могут содержать сотни едва различимых оттенков, которые легко спутать друг с другом. Это затрудняет оценку стоимости или определение конкретных цифр по карте (например, Бельгия немного темнее или светлее Сирии?). В-третьих, карты без классов с их множеством едва различимых цветов часто плохо понятны в печатном виде, особенно на принтерах низкого класса. Хотя на карте может использоваться 50 различных оттенков красного цвета, ваш принтер (а возможно, и монитор) не справится с этой задачей. К сожалению, из-за эффекта контраста не справляются и ваши глаза.
Когда лучше использовать хороплеты с классами и без
Хороплеты без классов
Мы используем хороплеты без классов в тех случаях, когда хотим получить менее фильтрованное представление о данных, когда не можем найти хороший вариант классификации и/или когда составляем карту специально для того, чтобы выделить общие географические закономерности. Однако мы не используем их, если необходимо, чтобы люди могли считать данные или детально сравнить одно место с другим. Если читателям необходимо получить цифры с карты, а карта статична/напечатана, что не позволяет получить данные по лику (как это можно сделать на интерактивной карте), то лучше использовать хороплет с классами.
Хороплеты с классами
Мы используем хороплеты с классами, когда имеем данные, привязанные к административным единицам/отдельным регионам, и хотим как показать общие географические закономерности, так и облегчить читателям карты увидеть конкретные данные. Хотя классификация вносит субъективизм в нашу работу (например, поскольку не существует оптимального количества классов или способа их создания) и исключает некоторые детали, группируя данные по классам, хороплеты с классами — популярный и надежный способ представления мира.