Hive - это база данных, построенная на основе Hadoop, которая упрощает обобщение данных, специальные запросы и анализ больших наборов данных, хранящихся в распределенной файловой системе, совместимой с Hadoop. Hive предоставляет механизм проецирования структуры на эти данные и запроса данных с использованием SQL-подобного языка, называемого HiveQL.

Apache Hive - это база данных, построенная на основе Hadoop, которая обеспечивает следующее:

  • Инструменты для легкого суммирования данных (ETL)
  • Специальные запросы и анализ больших наборов данных, хранящихся в файловой системе Hadoop (HDFS)
  • Механизм, позволяющий структурировать эти данные
  • Простой язык запросов Hive QL, основанный на SQL и позволяющий пользователям, знакомым с SQL, запрашивать эти данные.

В то же время этот язык также позволяет традиционным программистам картографирования / редукции подключать свои пользовательские преобразователи и преобразователи для более сложного анализа, который может не поддерживаться встроенными возможностями языка.

Поскольку Hive основан на Hadoop, он не дает и не может обещать низкие задержки при запросах. Парадигма здесь строго состоит в том, чтобы отправлять задания и получать уведомления об их завершении, а не в режиме реального времени. В отличие от таких систем, как Oracle, где анализ выполняется на значительно меньшем количестве данных, но анализ выполняется гораздо более итеративно, а время отклика между итерациями составляет менее нескольких минут, Hive запрашивает время отклика даже для самых маленьких заданий. быть порядка нескольких минут. Однако для более крупных заданий (например, заданий, обрабатывающих терабайты данных) в целом они могут занимать часы.

Подводя итог, можно сказать, что хотя производительность с низкими задержками не является главным приоритетом принципов проектирования Hive, основными характеристиками Hive являются следующие:

  • Масштабируемость (масштабирование за счет динамического добавления большего количества машин в кластер Hadoop)
  • Расширяемость (с картой / уменьшить рамки и UDF / UDAF / UDTF)
  • Отказоустойчивость
  • Слабая связь с входными форматами

Как написать хороший вопрос Hive:

  1. Добавить четкое текстовое описание проблемы.
  2. Укажите запрос и / или таблицу DDL, если применимо
  3. Предоставить сообщение об исключении
  4. Предоставить ввод и желаемый пример выходных данных
  5. Вопросы о производительности запросов должны включать вывод EXPLAIN запроса.
  6. Не используйте картинки для SQL, DDL, DML, примеры данных, вывод EXPLAIN и сообщения об исключениях.
  7. Используйте правильный код и форматирование текста

Официальный веб-сайт:

Полезные ссылки: