Разлика между HBase и кошер

HBase и Hive са както базирани в Hadoop структури за съхранение на данни, които се различават значително по отношение на начина, по който съхраняват и заявяват данни. Управлението и обработката на огромни обеми от уеб-базирани данни стават все по-трудни чрез конвенционалните инструменти за управление на бази данни. Това е мястото, където HBase идва на снимката. HBase е предпочитан избор за работа с големи количества данни. Например, ако трябва да филтрирате през огромен магазин от имейли, за да изтеглите такъв за одит или за каквато и да е друга цел, това ще бъде перфектен случай за използване за HBase. Hive, от друга страна, е по-скоро като традиционна система за отчитане на хранилището на данни, която работи над Hadoop. Hive предлага подобен на SQL език на заявките, който ви позволява да заявявате полуструктурирани данни, съхранявани в Hadoop. Това отнема ненужното усилие да се наложи да напишете MapReduce код. Въпреки че и HBase, и Hive се използват като хранилища на данни за съхранение на неструктурирани данни, те са различни.

Какво е Hbase?

HBase е система за управление на бази данни с отворен код, нерелационна, вдъхновена от архитектурата на Big Table на Google и написана на Java. HBase е основно ориентирана към колони разпределена база данни NoSQL, която работи върху Hadoop разпределената файлова система (HDFS). Той е проектиран и разработен от много инженери в рамките на Apache Software Foundation. Той седи на Apache Hadoop и се захранва от разпределена файлова структура, устойчива на откази, известна като HDFS. Той предоставя начин за съхранение на оскъдни набори от данни, които са често срещани в случаите на използване на големи данни. Той позволява бързо четене на данни с произволен достъп от големи количества данни въз основа на ключовите стойности. Той обаче не е предназначен за извършване на обобщаване на данните.

Какво е кошера?

Hive не е точно база данни, а пакет за съхранение на данни, изграден на Hadoop. Hive е различна технология от HBase; тя структурира данните в набор от таблици, които могат да бъдат обединени, агрегирани и запитвани при използване на език на заявката, наречен Hive Query Language (HQL), който е много подобен на SQL, използван за пакетна обработка на големи данни. Тя ви позволява да заявите полуструктурирани данни, съхранявани в Hadoop, които в крайна сметка се превръщат в задача на MapReduce, изпълнявана локално или в разпределен клъстер MapReduce. Hive е по същество система за съхранение на данни за Hadoop, която улеснява лесното обобщаване на данните, ad-hoc заявки и анализа на големи масиви от данни, съхранявани в съвместими с Hadoop файлови системи. Данните могат да се четат и записват от Hive и HBase и обратно. Тя обаче не може да се използва за обработка на данни в реално време.

Разлика между HBase и Hive

технология

- Въпреки че HBase и Hive са структури, базирани на Hadoop, използвани за съхраняване и обработка на големи количества данни, те се различават значително по отношение на начина, по който съхраняват и заявяват данни. HBase е по същество ориентирана към колони разпределена база данни NoSQL, която работи върху Hadoop разпределената файлова система (HDFS) и осигурява устойчив на неизправности начин за съхраняване на оскъдни набори от данни, които са често срещани в големи случаи на използване на данни. Hive, от друга страна, не е точно база данни, а пакет за съхранение на данни, изграден на Hadoop. Hive е по-скоро като традиционна система за отчитане на съхранение на данни.

архитектура

- HBase е база данни на NoSQL и реализация с отворен код на архитектурата на Big Table на Google, която седи на Apache Hadoop и се захранва от разпределена файлова структура, устойчива на откази, известна като HDFS. Това е мащабируемо решение за съхранение, за да побере почти безкрайно количество данни. Това е архитектура за съхранение на данни, използвана за съхранение на неструктурирани данни. Hive, от друга страна, е SQL двигател, изграден на основата на HDFS и използва MapReduce вътрешно, което позволява да се запитват данни, съхранявани на HDFS, чрез SQL-подобен език на заявката, наречен HQL (Hive Query Language).

употреба

- HBase се използва за изграждане на евтини, гъвкави и лесни за поддръжка услуги на слоевете плочки - Географска информационна система, базирана на Hadoop (HBGIS) - с цел масивно съхранение на данни. Това е формат за съхранение на колони на диск, който предоставя начин за съхранение на оскъдни набори от данни, които са често срещани в случаи на използване на големи данни. Той позволява бързо четене на данни с произволен достъп от големи количества данни въз основа на ключовите стойности. Hive, от друга страна, е стандарт за SQL заявки над петабайта данни в Hadoop и предоставя подобен на SQL език на заявките, наречен HQL, за търсене на данни, съхранявани в клъстер Hadoop.

HBase срещу кошер: Сравнителна диаграма

резюме

Въпреки че HBase и Hive са структури, базирани на Hadoop, използвани за съхраняване и обработка на големи количества данни, те се различават значително по отношение на начина, по който съхраняват и заявяват данни. HBase е колоно-ориентирана система за управление на бази данни, използвана за масивно съхранение на данни и предоставя начин за съхранение на оскъдни набори от данни, които са често срещани в няколко случая на използване на големи данни. Hive, от друга страна, е по-скоро като традиционна система за отчитане на хранилището на данни, изградена на върха Hadoop, използвана за стартиране на обработка чрез задания по график и след това зареждане на резултатите в обобщена таблица тип, която може да бъде допълнително запитвана от клиентски приложения.