Разлика между KDD и извличане на данни

KDD vs Извличане на данни

KDD (Discovery Discovery in Databases) е поле на компютърните науки, което включва инструментите и теориите за подпомагане на хората при извличане на полезна и неизвестна досега информация (т.е. знания) от големи колекции от цифровизирани данни. KDD се състои от няколко стъпки, а Data Mining е една от тях. Data Mining е приложение на специфичен алгоритъм с цел извличане на модели от данни. Независимо от това, KDD и Data Mining се използват взаимозаменяемо.

Какво е KDD?

Както бе споменато по-горе, KDD е област на компютърните науки, която се занимава с извличане на неизвестна досега и интересна информация от сурови данни. KDD е целият процес на опит за осмисляне на данните чрез разработване на подходящи методи или техники. Този процес се занимава с картографирането на ниско ниво на данни в други форми, които са по-компактни, абстрактни и полезни. Това се постига чрез създаване на кратки доклади, моделиране на процеса на генериране на данни и разработване на прогнозни модели, които могат да прогнозират бъдещи случаи. Поради експоненциалния растеж на данните, особено в области като бизнеса, KDD се превърна в много важен процес за преобразуване на това голямо богатство от данни в бизнес разузнаване, тъй като ръчното извличане на модели стана привидно невъзможно през последните няколко десетилетия. Например, в момента се използва за различни приложения като анализ на социалните мрежи, откриване на измами, наука, инвестиции, производство, телекомуникации, почистване на данни, спорт, извличане на информация и до голяма степен за маркетинг. KDD обикновено се използва за отговор на въпроси като кои са основните продукти, които биха могли да помогнат за получаване на висока печалба през следващата година в Wal-Mart ?. Този процес има няколко стъпки. Започва с разработване на разбиране за домейна на приложението и целта и след това създаване на целеви набор от данни. Това е последвано от почистване, предварителна обработка, намаляване и прожектиране на данни. Следващата стъпка е използването на Data Mining (обяснено по-долу) за идентифициране на модел. И накрая, откритото знание се консолидира чрез визуализиране и / или интерпретация.

Какво е Mining Data?

Както бе споменато по-горе, Data Mining е само стъпка в рамките на цялостния KDD процес. Има две основни цели за извличане на данни, както са дефинирани от целта на приложението и те са именно проверка или откриване. Проверката е проверка на хипотезата на потребителя за данните, докато откриването автоматично намира интересни модели. Има четири основни задачи за извличане на данни: клъстериране, класификация, регресия и асоцииране (обобщение). Клъстерирането е идентифициране на подобни групи от неструктурирани данни. Класификацията е правила за учене, които могат да се прилагат към нови данни. Регресията е намиране на функции с минимална грешка за моделиране на данни. А асоциацията търси връзки между променливи. След това трябва да бъде избран специфичният алгоритъм за извличане на данни. В зависимост от целта могат да се избират различни алгоритми като линейна регресия, логистична регресия, дървета на решения и Naive Bayes. След това се търсят модели на интерес към една или повече представителни форми. И накрая, моделите се оценяват или чрез използване на точност на прогнозиране или на разбираемост.

Каква е разликата между KDD и Data mining?

Въпреки че двата термина KDD и Data Mining се използват широко взаимозаменяемо, те се отнасят до две свързани, но малко различни понятия. KDD е цялостният процес на извличане на знания от данни, докато Data Mining е стъпка в процеса на KDD, който се занимава с идентифициране на модели в данните. С други думи, Data Mining е само прилагането на конкретен алгоритъм, основан на общата цел на KDD процеса.