Извличане на данни срещу съхранение на данни
Извличането на данни и съхранението на данни са едновременно много мощни и популярни техники за анализ на данни. Потребителите, склонни към статистиката, използват Data Mining. Те използват статистически модели, за да търсят скрити модели в данните. Миньорите на данни се интересуват от намирането на полезни връзки между различни елементи от данни, което в крайна сметка е изгодно за бизнеса. Но от друга страна, експертите по данни, които могат да анализират измеренията на бизнеса, са склонни да използват складови данни.
Извличането на данни е известно още като откриване на знания в данните (KDD). Както бе споменато по-горе, това е област на компютърните науки, която се занимава с извличане на неизвестна досега и интересна информация от сурови данни. Поради експоненциалния растеж на данните, особено в области като бизнеса, извличането на данни се превърна в много важен инструмент за преобразуване на това голямо богатство от данни в бизнес разузнаване, тъй като ръчното извличане на модели стана привидно невъзможно през последните няколко десетилетия. Например, в момента се използва за различни приложения като анализ на социалните мрежи, откриване на измами и маркетинг. Извличането на данни обикновено се занимава със следните четири задачи: групиране, класификация, регресия и асоцииране. Клъстерирането е идентифициране на подобни групи от неструктурирани данни. Класификацията е правила за учене, които могат да се прилагат към нови данни и обикновено включват следните стъпки: предварителна обработка на данни, проектиране на моделиране, подбор на учене / характеристики и оценка / оценка. Регресията е намиране на функции с минимална грешка за моделиране на данни. А асоциацията търси връзки между променливи. Извличането на данни обикновено се използва за отговор на въпроси като кои са основните продукти, които биха могли да помогнат за получаване на висока печалба през следващата година в Wal-Mart?
Както бе споменато по-горе, складирането на данни също се използва за анализ на данни, но от различни групи потребители и малко по-различна цел в ума. Например, що се отнася до сектора на търговията на дребно, потребителите на складиране на данни са по-загрижени за това какви видове покупки са популярни сред клиентите, така че резултатите от анализа могат да помогнат на клиента чрез подобряване на потребителското изживяване. Но миньорите на данни първо предполагат хипотеза, като например, че клиентите купуват определен тип продукт и анализират данните, за да тестват хипотезата. Съхранението на данни може да бъде извършено от голям търговец на дребно, който първоначално складира магазините си със същите размери продукти, за да разбере по-късно, че магазините в Ню Йорк продават инвентар с по-малък размер много по-бързо, отколкото в магазините в Чикаго. Така че, гледайки този резултат, търговецът на дребно може да запаси нюйоркския магазин с по-малки размери в сравнение с магазините в Чикаго.
И така, както ясно виждате, тези два вида анализи изглеждат едно и също с просто око. И двамата се притесняват от увеличаването на печалбите въз основа на историческите данни. Но разбира се, има ключови разлики. Казано по-просто, Data Mining и Data Warehousing са посветени на предоставянето на различни видове анализи, но определено за различни типове потребители. С други думи, Data Mining търси корелации, образец, за да подкрепи статистическа хипотеза. Но Складирането на данни отговаря на сравнително по-широк въпрос и отрязва и нарязва данни от там нататък, за да разпознае начини за подобряване в бъдеще.