Data Mining vs Warehousing
Процесът на извличане на данни се отнася до клон на компютърните науки, който се занимава с извличане на модели от големи масиви данни. След това тези групи се комбинират с помощта на статистически методи и от изкуствен интелект. Извличането на данни в съвременния бизнес е отговорно за превръщането на суровите данни в източници на изкуствен интелект. Данните се манипулират и по този начин могат да дават надеждни решения, които могат да бъдат използвани при вземане на решения. Това дава на предприятията предимство пред конкуренцията, тъй като имат набори от данни, на които може да се разчита за предоставяне на разузнавателна информация. Извличането на данни се използва и от организации в практики за профилиране, включително маркетинг, научно откриване и наблюдение за откриване на измами.
Съществуват и други общи термини, които могат да бъдат свързани с извличане на данни, като например риболов на данни, драгиране на данни или дори изхвърляне на данни. Всичко това насочва към различни вариации на извличане на данни, които се използват при вземане на проби от малки масиви от данни, които може да са твърде малки, за да произвеждат статистически изводи. Те обаче са от решаващо значение за очертаване на валидността на използваните данни и могат да бъдат използвани при създаването на хипотеза, когато очакваме да достигнем дадена съвкупност от данни.
Склад за данни, от друга страна, е термин, който описва система в организация, която се използва при събирането на данни. Тези данни, събрани от склад за данни, са това, което се предоставя от транзакционните системи като фактури, записи за покупки или дори записи на заем. Записите на данните са взети от отделните точки на създаване и се събират под един покрив, който е хранилището на данните. След това тези данни се отчитат и отчитането се извършва в обобщен начин, за да се подпомогне потребителите на бизнес информацията при вземане на валидни решения. Складът за данни, за да работи ефективно, изисква източник на данни, база данни и инструмент за отчитане.
Следователно може да се каже, че складът на данни е база данни, която се използва за специфичните цели за отчитане на анализирани данни. Тези данни идват от различните системи, които са били подготвени за отчитане.
За да изпълни своята функция, хранилището на данни поддържа функции в три отделни слоя. Те включват поставяне, интеграция и достъп. В процеса на стадиране суровите данни се съхраняват от разработчиците с единствената цел на анализ и поддръжка. Интеграционният слой се използва за интегриране на данни и за да има ниво на абстракция от потребителите на данните. И накрая, слоят за достъп е важен за извличане на данни от различни потребители на данни.
Както извличането на данни, така и съхранението на данни могат да бъдат посочени като инструменти, които се използват за събиране на бизнес информация. Основната разлика на двете е как се събира бизнес информацията. Следователно може да се каже, че данните, които са били добре складирани, са доста лесни за извличане и по този начин се използват. Следователно складът на данни е отговорен за улесняване работата на извличането на данни при настаняването на всички съответни данни, които трябва да бъдат извлечени на централно място, а не когато извличането на данни трябва да продължава да търси данни на различни места. Това помага за икономия на времето, изразходвано за извличане на данни и ресурсите, използвани в добив.
резюме
Извличането на данни е процес на извличане на данни от големи масиви от данни.
Съхранението на данни е процесът на обединяване на всички съответни данни заедно.
Както извличането на данни, така и съхранението на данни са инструменти за събиране на бизнес разузнаване.
Извличането на данни е специфично при събирането на данни.
Съхранението на данни е инструмент за спестяване на време и подобряване на ефективността чрез обединяване на данни от различно местоположение от различни области на организацията.
Складът за данни има три слоя, а именно стадиране, интеграция и достъп.