Data Mining vs OLAP
И извличането на данни, и OLAP са две от общите технологии за бизнес анализ (BI). Бизнес разузнаването се отнася до компютърно базирани методи за идентифициране и извличане на полезна информация от бизнес данни. Извличането на данни е областта на компютърните науки, която се занимава с извличане на интересни модели от големи масиви от данни. Той съчетава много методи от изкуствен интелект, статистика и управление на базата данни. OLAP (онлайн аналитична обработка), както подсказва името, е компилация от начини за търсене на многоизмерни бази данни.
Извличането на данни е известно още като откриване на знания в данните (KDD). Както бе споменато по-горе, това е област на компютърните науки, която се занимава с извличане на неизвестна досега и интересна информация от сурови данни. Поради експоненциалния растеж на данните, особено в области като бизнеса, извличането на данни се превърна в много важен инструмент за преобразуване на това голямо богатство от данни в бизнес разузнаване, тъй като ръчното извличане на модели стана привидно невъзможно през последните няколко десетилетия. Например, в момента се използва за различни приложения като анализ на социалните мрежи, откриване на измами и маркетинг. Извличането на данни обикновено се занимава със следните четири задачи: групиране, класификация, регресия и асоцииране. Клъстерирането е идентифициране на подобни групи от неструктурирани данни. Класификацията е правила за учене, които могат да бъдат приложени към нови данни и обикновено включват следните стъпки: предварителна обработка на данни, проектиране на моделиране, подбор на обучение / функция и оценка / оценка. Регресията е намиране на функции с минимална грешка за моделиране на данни. А асоциацията търси връзки между променливи. Извличането на данни обикновено се използва за отговор на въпроси като кои са основните продукти, които биха могли да помогнат за получаване на висока печалба през следващата година в Wal-Mart.
OLAP е клас системи, които предоставят отговори на многомерни заявки. Обикновено OLAP се използва за маркетинг, бюджетиране, прогнозиране и подобни приложения. От само себе си се разбира, че базите данни, използвани за OLAP, са конфигурирани за сложни и ad-hoc заявки с бързо представяне. Обикновено се използва матрица за показване на изхода на OLAP. Редовете и колоните са оформени от размерите на заявката. Те често използват методи за агрегиране на множество таблици, за да получат обобщения. Например, може да се използва, за да разберете за продажбите през тази година в Wal-Mart в сравнение с миналата година? Какво е прогнозата за продажбите през следващото тримесечие? Какво може да се каже за тенденцията, като се погледне процентната промяна?
Въпреки че е очевидно, че Data mining и OLAP са сходни, тъй като работят върху данни, за да получат интелигентност, основната разлика идва от това как работят върху данните. OLAP инструментите осигуряват многоизмерен анализ на данни и предоставят обобщения на данните, но за разлика от тях, извличането на данни се фокусира върху съотношения, модели и влияния в набора от данни. Това е OLAP сделка за обобщаване, която се свежда до работата на данните чрез „добавяне“, но извличането на данни съответства на „разделяне“. Друга забележителна разлика е, че докато инструментите за извличане на данни моделират данните и връщат изпълними правила, OLAP ще проведе техники за сравнение и контраст по бизнес измерение в реално време.