Съхранението на данни е система, предназначена за съхраняване и организиране на данни в централни хранилища, включително данни от други източници. Това е основна концепция за бизнес разузнаване в модели на релационни бази данни, която използва аналитични техники за интегриране на бизнес данни в централна база данни.
Има два общи архитектурни модела, използвани при съхранение на данни:
И двете са общи модели на многоизмерни бази данни, използвани за справяне с нуждите на големи бази данни за аналитични цели в реални складове за данни.
Представяме безпристрастно сравнение между двете, за да разберем по-добре кое от тях е по-добро от другото.
Това е най-разпространеният и широко приет архитектурен модел, използван за разработване на хранилища и данни, в които данните са организирани в факти и измерения. Това е най-простият архитектурен модел, при който една таблица с факти се използва за обозначаване на таблици с множество измерения, имитиращи звезден модел.
Както подсказва името, диаграмата прилича на звезда с таблицата с факти в центъра и множество таблици с измерения, излъчващи се от нея, създавайки модел като звезда.
Известна е още като схема за присъединяване към звезда и съхранява всички атрибути на измерение в една денормализирана таблица с факти, за бързо навигиране през големи многоизмерни набори от данни, което отчита бързо време за отговор на заявките.
Това е разширение на звездната схема с добавени функционалности. За разлика от звездната схема, таблиците с размерите в схемата на снежинката се нормализират в множество свързани таблици.
Архитектурният модел представлява логическо подреждане на таблици в йерархия на взаимоотношенията много към един, където множество таблици за измерения се нормализират в таблици с подразмери, наподобяващи снежинка като модел, оттук и името.
Това е по-сложна версия на звездната схема с повече присъединения между таблиците с измерения, което отчита бавно време за обработка за извличане на данни, което означава бавни времена за отговор на заявките. Той свежда до минимум излишността на данни, което от своя страна подобрява изпълнението на заявките.
В релационните бази данни звездна схема е най-простият архитектурен модел, използван за разработване на хранилища за данни и многоизмерни таблици за данни. Както подсказва името, моделът наподобява звезда с точки, излъчващи се от центъра, което означава, че таблицата с факти е центърът, а точките са таблиците с размерите. Подобно на другите модели на измерения, той се състои от данни под формата на факти и измерения. Снежинката схема, от друга страна, е по-сложният архитектурен модел, който се отнася до многоизмерна база данни с логическо подреждане на таблици под формата на снежинка.
Схемата на снежинката е доста подобна на схемата със звезди, с изключение на това, че може да има повече от една таблица с измерения, които допълнително се нормализират в множество свързани таблици, посочени като подразмерни таблици. Той представлява множество нива на връзки, които се разклоняват на модел на снежинка. Звездната схема обаче съхранява всички свързани атрибути на величина в една денормализирана таблица с размерите, което улеснява разбирането и обработката на по-прости заявки.
Таблица с измерения не може да съдържа дублиращи се редове в модели на релационни бази данни поради простия факт, че може да създаде неясноти при извличането. Всяка таблица трябва да има колона или комбинация от колони, наречени първичен ключ, който еднозначно идентифицира всички записи на таблицата. Външен ключ е колона или група колони, която осигурява връзка между две таблици. В звездна схема всяка таблица с измерения има първичен ключ, който е свързан с чужд ключ в таблицата с факти. Бизнес йерархията в схема на снежинка е представена от първичен ключ / външен ключ между таблиците на измерения.
Ключовата разлика между двата модела на релационна база данни е нормализирането. Таблиците на размерите в звездна схема не се нормализират, което означава, че бизнес моделът ще използва сравнително повече пространство за съхранение на таблици с размери и повече пространство означава повече излишни записи, което в крайна сметка би причинило несъответствие. Схемата на Snowflake, от друга страна, свежда до минимум излишъка на данните, тъй като таблиците с измерения са нормализирани, което представлява далеч по-малко излишни записи. Бизнес йерархията и нейните измерения се запазват чрез референтна цялост, т.е. отношенията могат да бъдат актуализирани независимо в хранилищата на данни.
Звездната схема има по-малко присъединения между таблицата на измерения и таблицата с факти в сравнение с тази на схемата на снежинката, която има множество присъединения, което представлява по-малка сложност на заявката. Тъй като размерите в звездна схема са свързани чрез централна таблица с факти, тя има ясни пътища за присъединяване, които означават бързо време за отговор на заявката и бързо време за отговор означава по-добра производителност. Схемата на Snowflake има по-голям брой присъединения, така че по-дългите времена за отговор на заявките, което води до по-сложни заявки, което в крайна сметка компрометира производителността.
И двете са най-разпространените и широко приети архитектурни модели, използвани за разработване на складове за бази данни и данни. Всеки бизнес модел има своя справедлив дял от плюсове и минуси. Докато звездата схема е най-простият многоизмерен модел, използван за организиране на данни във факти и измерения, той е идеален за разработване на данни от данни, които включват по-малко сложни взаимоотношения. Снежинка схема е логическо представяне на таблици в многоизмерна база данни, в която размерите се съхраняват в таблици с подразмери. Основната разлика между двете е нормализирането. Таблиците с размери в схемата на снежинката са напълно нормализирани в множество таблици за търсене, докато в звездна схема таблиците с размерите са денормализирани в една централна таблица с факти.