Йерархична срещу частична клъстеризация
Клъстерирането е техника за машинно обучение за анализ на данни и разделяне на групи от подобни данни. Тези групи или групи от подобни данни са известни като клъстери. Анализът на клъстерите разглежда алгоритмите за клъстериране, които могат да идентифицират клъстерите автоматично. Йерархични и частични са два такива класа алгоритми за групиране. Йерархичните алгоритми на клъстеринг разбиват данните в йерархия на клъстери. Частичните алгоритми разделят набора от данни на взаимно разединяващи се дялове.
Какво е йерархично клъстериране?
Йерархичните алгоритми на клъстеризиране повтарят цикъла или на сливане на по-малки клъстери в по-големи, или разделяне на по-големи клъстери на по-малки. Така или иначе, тя създава йерархия от клъстери, наречена дендограма. Агломеративната стратегия за клъстериране използва подходът „отдолу нагоре“ за обединяване на клъстери в по-големи, докато стратегията за разделяне на клъстеринг използва подходът „разделяне отгоре надолу“ към по-малките. Обикновено алчният подход се използва при определяне на кои по-големи / по-малки клъстери се използват за сливане / разделяне. Евклидово разстояние, разстояние на Манхатън и косинусно сходство са едни от най-често използваните показатели за сходство за числови данни. За нечислени данни се използват показатели като разстоянието Хаминг. Важно е да се отбележи, че реалните наблюдения (случаи) не са необходими за йерархично групиране, тъй като е достатъчна само матрицата на разстоянията. Dendogram е визуално представяне на клъстерите, което показва йерархията много ясно. Потребителят може да получи различна клъстеризация в зависимост от нивото, на което се изрязва дендограмата.
Какво е частично клъстеризиране?
Алгоритмите за частично клъстериране генерират различни дялове и след това ги оценяват по някакъв критерий. Те се наричат също нехиерархични, тъй като всеки екземпляр е поставен в точно един от k взаимно изключващи се клъстери. Тъй като само един набор от клъстери е изходът на типичен алгоритъм за разделно клъстериране, потребителят е длъжен да въведе желания брой клъстери (обикновено наричани k). Един от най-често използваните алгоритми за частично клъстериране е алгоритъмът за клъстериране на k-означава. Потребителят е длъжен да предостави броя на клъстерите (k) преди стартиране и алгоритъмът първо инициира центровете (или центроидите) на k дяловете. С две думи, k-означава алгоритъм за клъстериране, след което присвоява членове въз основа на текущите центрове и преоценява центрове въз основа на текущите членове. Тези две стъпки се повтарят, докато не бъдат оптимизирани определена цел на сходство между клъстерите и целева функция за различие между клъстери. Следователно разумната инициализация на центрове е много важен фактор за получаване на качествени резултати от алгоритмите за частично клъстериране.
Каква е разликата между йерархично и частично клъстериране?
Йерархичното и частичното клъстериране имат ключови разлики в времето на работа, предположенията, входните параметри и в резултат на това групи. Обикновено дяловото клъстериране е по-бързо от йерархичното клъстериране. Йерархичното клъстериране изисква само мярка за сходство, докато частичното клъстериране изисква по-силни предположения, като брой на клъстерите и началните центрове. Йерархичното клъстериране не изисква никакви входни параметри, докато алгоритмите за частично клъстериране изискват броя на клъстерите, за да започне да се изпълнява. Йерархичното клъстериране връща много по-смислено и субективно разделение на клъстери, но частичното клъстериране води до точно k клъстери. Йерархичните алгоритми за клъстериране са по-подходящи за категорични данни, стига мярката за сходство да може да бъде определена съответно.