Klassifikatsioon

Siin on subjektiivne ülevaade mõnede liigitusalgoritmide kohta, mida olen arendanud/uurinud, mõned neist on rakendatavad ka teistsuguste probleemide jaoks, aga fookus on klassifikatsioonil. Kusjuures mõned on supervised learning ja mõned on unsupervised algoritmid.

k-NN.

k-NN on suurte andmemahtude jaoks liiga aeglane. Kasutamisel on raske olulisi parameetreid reguleerida. Vaatamata sellele on liigituste kvaliteet üks paremaid. Lisaks on k-NN kasutajale arusaadav.

LVQ ja Kohonen.

Kohonen’i net ei võta vastu puuduolevaid väärtusi, nagu ka k-NN ja need tuleb ise välja mõelda. Neural netile tüüpiliselt on kasutajal raske aru saada, miks just nii on liigitatud ja mida võrgu topoloogia näitab.

k-Means.

Üks kasutatavamaid algoritme. Oluliste parameetrite reguleerimine on suhteliselt lihtne. Liigitamise kvaliteet on hea. Paindlik meetod.

Backprop.

Neural netile tüüpiliselt on kasutajasõbralikkus minimaalne, ilma NNet-e tundmata on suhteliselt keeruline parameetreid reguleerida. Samuti on tulemusi interpreteerida keeruline. Hierarhilisi andmeid ei toeta nagu ka eelpoolmainitud meetodid. Vaatamata sellele küllaltki paindlik meetod (paindlik sellessuhtes, et ka näiteks hierarhilisi andmeid on töödeldud sellega, aga tulemused kehvad).

RBF.

Kasutajasõbralikkus parem võrreldes teiste NN-idega. Kvaliteet sellevõrra halvem.

ART1.

Veel üks neural net. Raske kasutada. Tulemused on raskesti tõlgendatavad. Andmete eeltöötlemiseta ja minimaalsete teadmistega on siiski võimalik tulemusi saavutada.

GENN (Genetically Evolved Neural Nets).

Peaks tegema NNet-ide kasutamise arusaadavamaks, võimaldades korrigeerida võrgu topoloogiat vastavalt antud probleemi suurusele näiteks. Kasutajasõbralikkus sellevõrra halvem, sest nõuab teadmisi.

C 4.5

Aktsepteerib puuduolevaid väärtuseid. Kasutajasõbralikkuselt parim variant, sest tulemusi on lihtne interpreteerida võrreldes teiste algoritmidega. Decision tree meetodid on lisaks ka kiired.

Hierarchical clustering.

Üks varasemaid algoritme, mida kasutati bioinformaatikas. Nüüd ütleb Wiki, et algoritm omab ainult teoreetilist väärtust. Iseenesest tundub, et HC on midagi mida tahaks teha näiteks centroididega k-Means stiilis, aga kiirus on sellel algoritmil n^2. Põhimõtteliselt täiesti kasutatav algoritm.

Spectral hierarchical clustering

Kui on olemas mingid head Eigenvalue algorithmid, kiire QR vms, ja teadmised(QR on üks kõige keerulisemaid algoritme ühe matemaatiku andmete järgi), siis võib kasutada. Muud keerulist seal ei ole ka.

Kiirust on nende algoritmide vahel keeruline mõõta, mõni kasutaja võib tükk aega andmeid eeltöödelda ja saavutada parima kvaliteedi ja kiiruse. Samas mõni teine võib lihtsalt suvalised parameetrid sisse lüüa ja kehvema tulemuse saada. Algoritmiliselt on nad kõik keerulised. See tähendab, et mainitud algoritmide kiirus on tavaliselt n^k, kus k on sõltuv mingist statistilisest näitajast.

Advertisements