Большие геопространственные данные

Оригинал статьи можно найти здесь https://eartharxiv.org/repository/view/1782/

Большие геопространственные данные и будущее ГИС на примере IBM PAIRS

Быстрый рост геопространственно-временных данных из таких источников, как спутники, беспилотные летательные аппараты, датчики Интернета вещей, открывает беспрецедентные возможности как для научных, так и для промышленных приложений. Данные ежегодно накапливаются со скоростью от петабайтов до эксабайтов. Однако, огромный размер и сложность таких данных создают серьезные проблемы для традиционных ГИС, которые поддерживаются обычно реляционными геопространственными базами данных или облачными геопространственными сервисами на основе файловых систем.

Чтобы пользоваться всеми преимуществами геопространственно-временных данных, вместе с последними достижениями в области машинного обучения и искусственного интеллекта, требуется новая парадигма для платформ и сервисов. Некоторые из ее необходимых функций включают:

1) масштабируемое облачное развертывание, способное обрабатывать сотни петабайт данных

2) унификацию данных для того, чтобы скрыть их сложность (схема, проекция карты) от конечных пользователей

3) расширенные возможности поиска данных на «пиксельном уровне» (в отличие от «файлового уровня»)

4) аналитика и вычисления на стороне сервиса, чтобы избежать скачивая гигантского объема данных

Традиционные ГИС являются центральной технологией геопространственной аналитики. Это быстрорастущий рынок, который, по прогнозам, достигнет 86 миллиардов долларов к 2023 году при среднегодовом темпе роста 16,3% [1]. Однако, ГИС находится на переломном этапе в основном по двум причинам:

Серверные части традиционных ГИС сталкиваются с серьезными ограничениями масштабируемости в результате появления «мега» данных в виде изображений (например, с дронов и спутников) [2, 3], временных рядов IoT (Интернет Вещей) [4, 5], LiDAR [7] или RaDAR. Например, Европейское космическое агентство (ESA) создает более 10 терабайт спутниковых данных за один день [7]. Десять терабайт не могут быть обработаны большинством серверных программ ГИС. Ожидается, что рост генерации данных продолжится экспоненциально с учетом появления новых платформ для создания данных, таких как дроны [6], наноспутники [3], или новые датчики типа LiDAR [8].
Пользователи ГИС все больше и больше стремятся в полной мере воспользоваться этими новыми источниками данных, используя последние достижения машинного обучения и искусственного интеллекта [9, 10]. Примеры таких использований многочисленны и охватывают различные отрасли от энергетики до коммунальных услуг.
Тот факт, что а) многие из новых наборов геопространственно-временных данных слишком велики, чтобы их можно было перемещать, и б) большинство случаев использования требуют интеграции нескольких наборов данных, приводит к понятию гравитации данных. Это означает, что большие данные имеют тенденцию привлекать больше данных – так же, как большая масса привлекает меньшую массу, – и поэтому большие данные привлекают больше вычислений и приложений. Большинство традиционных ГИС ограничены с точки зрения того, сколько можно обработать.

Серверная часть БД ГИС должна стать намного более мощной, чтобы справиться с этими проблемами, где в будущем аналитика и данные будут размещены в одном месте. Решение этих проблем гравитации данных включает в себя множество технологий. Во-первых, учитывая размер данных и тот факт, что многим пользователям требуются одни и те же наборы больших данных для различных приложений, общая, часто облачная система становится более экономичной, и ее можно использовать удаленно как услугу. Другие ключевые технологии могут включать HDFS (распределенная файловая система Hadoop) [12, 13], HBase [14, 15], MapReduce [16, 17]. Это, в свою очередь, позволяет обрабатывать очень большие наборы данных и, что более важно, выполняет эти задачи во время запросов, избегая перемещения данных.

Для сравнения, ГИС даже сегодня часто полагаются на реляционные БД, такие как Postgres, в основном для векторных данных и/или файлового хранилища растровых данных. Известно, что реляционные БД испытывают трудности с масштабированием, когда размер данных превышает несколько десятков терабайт. Использование файлового хранилища имеет и другие серьезные недостатки. Часто пользователям необходимо собрать множество изображений, чтобы иметь дело с разными отметками времени, разрешениями, проекциями карт и т. д. Даже в простых случаях, когда пользователь хочет извлечь временной ряд из нескольких спутниковых наблюдений для одного и того же места, придется часто загружать и открывать тысячи файлов для извлечения нужной информации.

Для решения вышеупомянутых проблем в 2015 году был представлен IBM PAIRS Geoscope (Physical Analytics Integrated Data Repository & Services) [18, 19], который, в отличие от большинства систем, не использует системы реляционных БД или файловое хранилище (https://www.ibm.com/products/environmental-intelligence-suite/geospatial-analytics). PAIRS основан на распределенной, высоко-параллельной системе больших данных типа "ключ-значение" с большим готовым каталогом тщательно проиндексированных, разнообразных, и постоянно обновляемых геопространственно-временных данных в облаке. Он обеспечивает масштабируемый доступ к сложным запросам и аналитике на основе машинного обучения и ИИ для работы без необходимости загрузки данных.

PAIRS предоставляет пользователям несколько преимуществ. Во-первых, он обеспечивает доступ к петабайтам наборов геопространственно-временных данных по низкой цене. Это связано с тем, что многим пользователям требуются одни и те же наборы данных, а также возможности аналитики, и, следовательно, общие службы PAIRS намного более эффективны и экономичны. Во-вторых, PAIRS значительно ускоряет аналитику, сокращая время при извлечении и анализе геопространственной временной информации.

PAIRS:

а) предоставляет данные, подготовленные для искусственного интеллекта

б) возвращает результаты поиска и аналитические запросы, включающие несколько наборов данных (по фильтрации, агрегированию, применению математических функций и т. д.)

в) предоставляет услуги платформы для пользовательской аналитики без загрузки данных

г) позволяет клиентам интегрировать свои собственные данные, использовать, анализировать или монетизировать их данные вместе с петабайтами уже подготовленных данных.

PAIRS не единственная технология, которая использует комбинацию хранилища ключей и значений с распределенной параллельной системой больших данных. GeoMesa (https://www.geomesa.org/ ) и GeoWave (https://locationtech.github.io/geowave/ ) – два захватывающих и инновационных исследовательских проекта с открытым исходным кодом, использующих аналогичную идею [20, 21]. Для сравнения, проекты GeoMesa и GeoWave в первую очередь ориентированы на векторные данные, в то время как PAIRS дополняет эту возможность, фокусируясь на растровых данных. Кроме того, PAIRS нацелена на обеспечение непрерывной функциональности от курирования данных до настраиваемой аналитики, которую пользователь может использовать напрямую, не выполняя развертывание или оптимизацию конфигурации.

Библиография:

1. Geospatial Analytics Market worth 86.32 Billion USD by 2023 https://www.marketsandmarkets.com/PressReleases/geospatialanalytics.asp.

2. Tang, L. and G. Shao, Drone remote sensing for forestry research and practices. Journal of Forestry Research, 2015. 26(4): p. 791-797.

3. Bouwmeester, J. and J. Guo, Survey of worldwide pico-and nanosatellite missions, distributions and subsystem technology. Acta Astronautica, 2010. 67(7-8): p. 854-862.

4. Gubbi, J., et al., Internet of Things (IoT): A vision, architectural elements, and future directions. Future generation computer systems, 2013. 29(7): p. 1645-1660.

5. Weber, R.M., Internet of Things Becomes Next Big Thing. Journal of Financial Service Professionals, 2016. 70(6).

6. Dubayah, R.O. and J.B. Drake, Lidar remote sensing for forestry. Journal of Forestry, 2000. 98(6): p. 44-46.

7. Petiteville, I., personal communication.

8. Hakala, T., et al., Full waveform hyperspectral LiDAR for terrestrial laser scanning. Optics express, 2012. 20(7): p. 7119-7127.

9. Chen, J., et al., Exploratory data analysis of activity diary data: a space–time GIS approach. Journal of Transport Geography, 2011. 19(3): p. 394-404.

10. Yuan, M., Challenges and critical issues for temporal GIS research and technologies, in Handbook of Research on Geoinformatics. 2009, IGI Global. p. 144-153.

11. Resch, B., et al., GIS-based planning and modeling for renewable energy: Challenges and future research avenues. ISPRS International Journal of Geo-Information, 2014. 3(2): p. 662-692.

12. Lam, C., Hadoop in action. 2010: Manning Publications Co.

13. Zikopoulos, P. and C. Eaton, Understanding big data: Analytics for enterprise class hadoop and streaming data. 2011: McGraw-Hill Osborne Media.

14. Dimiduk, N., et al., HBase in action. 2013: Manning Shelter Island.

15. Harter, T., et al. Analysis of {HDFS} Under HBase: A Facebook Messages Case Study. in Proceedings of the 12th {USENIX} Conference on File and Storage Technologies ({FAST} 14). 2014.

16. Dean, J. and S. Ghemawat, MapReduce: simplified data processing on large clusters. Communications of the ACM, 2008. 51(1): p. 107-113.

17. Ekanayake, J., S. Pallickara, and G. Fox. Mapreduce for data intensive scientific analyses. in 2008 IEEE Fourth International Conference on eScience. 2008. IEEE.

18. Klein, L.J., et al. PAIRS: A scalable geo-spatial data analytics platform in 2015 IEEE International Conference on Big Data (Big Data). 2015. IEEE.

19. Lu, S., et al. IBM PAIRS curated big data service for accelerated geospatial data analytics and discovery. in 2016 IEEE International Conference on Big Data (Big Data). 2016. IEEE.

20. Hughes, J.N., et al. Geomesa: a distributed architecture for spatiotemporal fusion. in Geospatial Informatics, Fusion, and Motion Video Analytics V. 2015. International Society for Optics and Photonics.

21. Whitby, M.A., R. Fecher, and C. Bennight. Geowave: Utilizing distributed key-value stores for multidimensional data. in International Symposium on Spatial and Temporal Databases. 2017. Springer.

Источник текста: S. Lu и H. Hamann, «IBM PAIRS: Scalable big geospatial-temporal data and analytics as-a-service», ноя. 2020, [Онлайн]. Доступно на: https://eartharxiv.org/repository/view/1782/