През годините множество системи за класифициране, наричани още ансамблови системи, са популярна изследователска тема и се радват на нарастващо внимание в общността на компютърната интелигентност и машинно обучение. Привлече интереса на учени от няколко области, включително машинно обучение, статистика, разпознаване на образи и откриване на знания в бази данни. С течение на времето методите на ансамбъла се доказаха като много ефективни и многостранни в широк спектър от проблемни области и приложения в реалния свят. Първоначално разработен за намаляване на разликата в автоматизирана система за вземане на решения, от тогава ансамбълните методи се използват за справяне с различни проблеми на машинното обучение. Представяме преглед на двата най-изявени алгоритъма на ансамбъла - Bagging и Random Forest - и след това обсъждаме разликите между двата.
В много случаи е показано, че пакетирането, което използва вземане на проби за зареждане, класификационният трес има по-висока точност от едно класификационно дърво. Бегът е един от най-старите и най-прости алгоритми, базирани на ансамбъл, който може да се приложи към алгоритми на базата на дърво, за да се подобри точността на прогнозите. Има още една подобрена версия на пакетирането, наречена алгоритъм на Random Forest, който по същество е съвкупност от дървета за решения, обучени с механизъм за пакетиране. Нека да видим как работи алгоритъмът на случаен лес и как се различава от това в пакетите в ансамбъл модели.
Обобщаването на Bootstrap, познато още като пакетиране, е един от най-ранните и най-прости алгоритми, базирани на ансамбъла, за да направят дърветата на решенията по-здрави и да постигнат по-добри резултати. Концепцията зад пакетирането е да се комбинират прогнозите на няколко обучаващи се в основата, за да се създаде по-точен резултат. Лео Брейман представи алгоритъма за пакетиране през 1994 г. Той показа, че агрегирането на началния старт може да доведе до желани резултати при нестабилни алгоритми за обучение, при които малките промени в данните за обучение могат да причинят големи вариации в прогнозите. Bootstrap е извадка от набор от данни с подмяна и всяка проба се генерира чрез вземане на равномерно изваждане на тренировъчния набор с размер m, докато не се получи нов набор с m инстанции.
Случайната гора е контролиран алгоритъм за машинно обучение, основан на ансамбълното обучение и еволюция на оригиналния алгоритъм за багаж на Breiman. Това е голямо подобрение спрямо пакетираните дървета с решения, за да се изгради множество дървета с решения и да се агрегират, за да се получи точен резултат. Breiman добави допълнителна случайна промяна в процедурата за пакетиране, създавайки по-голямо разнообразие сред получените модели. Случайните гори се различават от торбирани дървета, като принуждават дървото да използва само подмножество от наличните си предсказатели, за да се раздели на фазата на растеж. Всички дървета на решения, които съставляват произволна гора, са различни, тъй като всяко дърво е изградено върху различно произволно подмножество от данни. Тъй като свежда до минимум преизпълняването, той е по-точен от едно дърво с решения.
- И двете торби и случайни гори са алгоритми, базирани на ансамбъл, които имат за цел да намалят сложността на моделите, които надхвърлят данните от обучението. Обобщаването на Bootstrap, наричано още пакетиране, е един от най-старите и мощни методи за ансамбъл за предотвратяване на свръхкомбинат. Това е мета техника, която използва множество класификатори, за да подобри точността на прогнозиране. Baging просто означава изтегляне на произволни проби от тренировъчната проба за подмяна, за да се получи ансамбъл от различни модели. Случайната гора е контролиран алгоритъм за машинно обучение, основан на ансамбълното обучение и еволюция на оригиналния алгоритъм за багаж на Breiman.
- Концепцията за вземане на проби от първоначалното зареждане (пакетиране) е да се обучат куп неподправени дървета на решения на различни случайни подмножества от данните за обучението, вземане на проби със замяна, за да се намали различието в дърветата с решения. Идеята е да се комбинират прогнозите на няколко базови учащи се, за да се създаде по-точен резултат. С Random Forest се добавя допълнителна случайна промяна в процедурата за насипване, за да се създаде по-голямо разнообразие сред получените модели. Идеята зад произволните гори е да се построят множество дървета с решения и да се обединят, за да се получи точен резултат.
- Както торбирани дървета, така и случайни гори са най-често срещаните инструменти за обучение на ансамбъл, използвани за справяне с различни проблеми на машинното обучение. Bootstrap вземане на проби е мета-алгоритъм, предназначен да подобри точността и стабилността на моделите за машинно обучение с помощта на ансамбълното обучение и да намали сложността на моделите за пренастройване. Алгоритъмът на случайни гори е много стабилен срещу прекомерно приспособяване и е добър с небалансирани и липсващи данни. Също така е предпочитаният избор на алгоритъм за изграждане на прогнозни модели. Целта е да се намали дисперсията чрез осредняване на множество дървета с дълбоки решения, обучени на различни извадки от данните.
Както торбирани дървета, така и случайни гори са най-често срещаните инструменти за обучение на ансамбъл, използвани за справяне с различни проблеми на машинното обучение. Бегът е един от най-старите и най-прости алгоритми, базирани на ансамбъл, който може да се приложи към алгоритми на базата на дърво, за да се подобри точността на прогнозите. Случайни гори, от друга страна, е контролиран алгоритъм за машинно обучение и подобрена версия на модела за вземане на проби за зареждане, използван както за регресия, така и за проблеми с класификацията. Идеята зад произволната гора е да се построят множество дървета за решения и да се обединят, за да се получи точен резултат. Една случайна гора има тенденция да бъде по-точна от едно дърво с решения, тъй като свежда до минимум превишаването.