Tento týždeň sa mi podarilo uskutočniť konzúltáciu s pánom doc. Igor Farkašom, komu som veľmi vdačný. Pomohol mi učit na, ktoré teoretické oblasti sa mám zamerať ako poskytol niekoľko praktických rád.
Pokračujem v štúdiu knihy Neural Networks od Simona Haykina a sprácuvam materialy.
streda 28. marca 2012
nedeľa 25. marca 2012
Správa IV
Tento týždeň do mojej výpožičnej zbierky pribudli nasledovne knihy v tlačených verziách:
- Data Mining: Concepts and Techniques (autori: Jiawei Han a Micheline Kamber)
- Neural Networks: A Comprehensive Foundation (autor: Simon Hakyn)
streda 14. marca 2012
Správa III
Po
zvážení tém predchádzajúcich bakalárskych prác pomaly sa
utvrdzujem v tom, že nástroj dataminingu, ktorý si bude vyžadovať
vačšiu pozornosť budú neuronové sieťe. Pevne verím, že
napriek faktu, že genetické algoritmy boli témou diplomovej práce
Aleksandra
Takača: Genetic
programming data mining : Cellular approach, zostáva mi ešte
čím prispiet. Po prestudovaní spomentutej práce vyhodnotím ďalši
postup.
Preferujem
momentálne vrátane zbežného úvodu a rozboru metód, porovnať klasifikáciu
rozhodovacími stromami (napr. generovaými algoritmom ID3) a
klasifikáciu neuronovými sieťami s dôrazom na neurónové siete. Zatiaľ ako najpravdepodobnejšie
prevedenie pokladám použitie Feedforward neuronovej siete. Avšak
rozsah implementácie je otázka, na ktorú neviem odpovedať zatial.
Užitočné
linky o neuronových sieťach
- krátky úvod do DM(datamining)
- úuvod do NN(neural networks)
- praktické použitie NN v DM
- Pattern Classification and Scene Analysis,
- klasika v odbore
- podobný autor: Fisher
- veľmi dobrý a k veci úvod do NN
Software
- zoznam rôzneho softwareu na klasifikaciu s NN
- free software na klasifikáciu s NN
- limitácie: pracuje len s bodmy (x,y), kde x,y ∊ R
- java implementácia NN so spustiteľnými príkladmi
- licencia GPLv3
- možné limitácie: podporuje len spojité atribúty
Pokiaľ v poslednom bode spomenutá java implementácia NN, bude obsahovať danú limitáciu, a nenajdem iný vhodnejši software(knižnicu) na klasifikaciu s NN, vytvorí mi to príležitosť doimplementovať podporu pre enumerované atribúty.
streda 7. marca 2012
Správa II
Tento týždeň sa venujem špecifikácií
oblastí a metód dataminingu, ktoré budem skúmať v mojej práci.
Zistil som nasledovné informácie relevantné k mojej práci.
Pre teoretickú časť som objavil
ďalšiu kvalitnú literatúru zaoberajúcu sa predprípravou,
redukciou a spracovaním dát:
Data Mining: Concepts, Models, Methods, and Algorithms(link)by Mehmed KantardzicJohn Wiley & Sons 2003
Ďalej som sa zaoberal otázkou
implentačnej časti, konkrétne datasetom pre experiment. Od
získavania datasetu z internetu pomocou web-crawleru som upustil,
kvôli časovej neefektívnosti a otáznej legalite. Ako akademicky
prijateľná, a vo výskume dataminingu používaná, alternatíva sa
naskytla stránka: UC Irvine Machine Learning Repository(link).
Je to
otvorený repozitár rôznych databáz obsahujúcich empirické dáta
sprostredkované organizáciami, inštitúciami a firmami, ktoré
sa rozhodli podporiť vývoj tejto oblasti.
Každý
zverejnený dataset obsahuje vrátane špecifikácie štruktúry aj
odporúčanú metódu dataminingu. Na tento faktor budem prihliadať
pri výbere datasetu, aby som si zvolil vhodný experimentálny
príklad. Pred príkladom bude predchádzať adekvátne vysvetlenie
relevantnej teórie.
Prihlásiť na odber:
Príspevky (Atom)