Data Mining vs Warehousing
Термините „извличане на данни“ и „съхранение на данни“ са свързани с областта на управление на данни. Това са програми за събиране на данни, които се използват главно за изучаване и анализ на статистиката, моделите и измеренията в огромно количество данни.
Извличане на данни
Терминът „извличане на данни“ се използва за процес, който включва анализ на данни от гледна точка на различни гледни точки и обобщаване на тези данни в полезна информация. Софтуерът за обработка на данни обработва информацията, така че да регулира данните или за намаляване на разходите, или за увеличаване на приходите, или и двете.
Процедурите за извличане на данни следват задълбочено проучване и събиране на информация чрез идентифициране на конкретни тенденции въз основа на данните и заявките, които се генерират от потребителя. Основната цел на софтуера за извличане на данни е да идентифицира необичайни модели, да открие измами, свързани с финанси, по-специално, и да генерира управлявани програми за подобряване на маркетинга.
Софтуерът за извличане на данни се използва главно поради огромното количество събрани данни. Данните се изсипват чрез скенери, директен отговор на пощата, банкомати, уеб регистри на сървъра, демографски данни, камери със затворен кръг, транзакции с кредитни карти и много допълнителни източници. Цялата тази информация трябва да бъде валидирана и обобщена, преди да се направи анализ. Този процес е категоризиран като съхранение на данни. Следващата стъпка е да се сортира тази информация чрез различни процедури, интегрирани при извличане на данни.
Софтуерът за обработка на данни използва различни стъпки. Първата стъпка е предварителната обработка на данните, която включва: подбор на данни, почистване на данни, отстраняване на шум и трансформация на данни. След създаването на тези общи единици информация се генерират нови полета. Следващата стъпка е изграждането на модел за извличане на данни. Тук се генерира перспективен модел за обобщаване на полезна информация. Последната стъпка е оценка на модела за извличане на данни.
Извличането на данни в момента е необходимо главно поради нарастващата конкуренция в бизнеса. Компаниите се конкурират по отношение на услуги, персонализация, сигурност и предприемачество в реално време.
Съхранение на данни
Съхранението на данни е процесът на събиране и съхраняване на данни, които по-късно могат да бъдат анализирани за извличане на данни. Склад за данни е сложна компютърна система с голям капацитет за съхранение. Данните от всички източници се насочват към този източник, където данните се почистват, за да се премахне противоречивата и излишна информация. Процесът на съхранение на данни дава възможност за централизиран достъп до данни.
Сложните и сложни техники за заснемане и обработка на данни са основните източници за организациите да създадат ефективно и ефикасно съоръжение за съхранение на данни. Те са основен актив за компаниите да поддържат своята рентабилност, ефективност и конкурентни предимства. Събраните данни се предават през процес, наречен Управление на жизнения цикъл на данните.
Съхранението на данни използва техники за относителни системи за управление на база данни като извличане, зареждане, преобразуване и релационна онлайн обработка на приложения. Има четири характеристики на техниките за съхранение на данни. Те са: предметно-базиран дизайн, интеграция с данни, енергонезависим образ на състояния, изгледи на данни и времеви варианти на данни.
Резюме: