streda 16. mája 2012
Správa XI
Venoval som sa písaním textu 3. kapitoly týkajucej sa návrhu a 4. kapitoly. Pripravil som predbeznú formu prezentácie, ktorú odprezentujem na bakalárskom semináry.
streda 9. mája 2012
Správa X
Venoval som sa realizácii experimentov s porovnaním nástrojov a písaním príslušných textov 4. kapitoly o realizácii experimentu. Výsledkom čoho som si zvolil nástroj určený pre data mining RapidMiner. Kedže v prezentácii experimentu nebudem sa zameriavať na MSE ale na celkovú úspešnosť klasifikácie spomenutý nástroj je najviac vyhovujúci.
streda 2. mája 2012
Sprava IX
Tento týždeň som sa venoval písaniu a čisteniu textov v teoretickej časti.
Src: http://1.bp.blogspot.com/-9F-l1ML9j1Y/TZDQ3fvLDvI/AAAAAAAAAII/F_UMfZoId3I/s1600/neuron-network.jpg
Src: http://1.bp.blogspot.com/-9F-l1ML9j1Y/TZDQ3fvLDvI/AAAAAAAAAII/F_UMfZoId3I/s1600/neuron-network.jpg
streda 25. apríla 2012
Sprava VIII
Tento týždeň som venoval experimentu s feedforward sietou s použitím 3rd party java implementacie na realnych datach. Konkrétne dáta z bc. práce Mareka Mardiaka z 2008, pre porovnanie výsledkov, kde výsledky sú porovnateľé avšak priemerná chyba pre testovaciu množinu sa blížila 20% čo pre neurónovú sieť nie je ideálne. Avšak berúc do úvahy fakt, že úloha dolovania je predpoveď zemetrsení na zaklade polohy, hlbky a počtu stanic ktoré udalosť zaznamenali, je pravdepodobné že lepšie výsledky sa použitá metóda klasického backpropagation lepšie výsledky nedosiahne.
Uvediem ilustračný graf závislosti priemernej chyby od počtu epoch.
Konfiguracia:
- 4 vstupy (long., lat., depth, no. of stations)
- 1 výstup
- 3 vrstvový perceptron
- plne prepojený
- skryté vrstvy logistická aktivačna funkcia
- výstupná vrstva linearna aktivačna funkcia
- trenovanie 2000 epoch
Uvediem ilustračný graf závislosti priemernej chyby od počtu epoch.
Konfiguracia:
- 4 vstupy (long., lat., depth, no. of stations)
- 1 výstup
- 3 vrstvový perceptron
- plne prepojený
- skryté vrstvy logistická aktivačna funkcia
- výstupná vrstva linearna aktivačna funkcia
- trenovanie 2000 epoch
streda 18. apríla 2012
Správa VII
V tohto tíždňovej správe zverejním predbežný obsah mojej bakalárskej práce. Rád by som zdôraznil slovo "predbežný". Obsah bude učite dopĺňovaný a nazvy budú upravované, aby lepšie vystihli myšlienku. Budem ho tíždenne aktualizovať v prípade zmeny. Zverejnená bude časť medzi úvodom a záverom, zvýšok považujte za samozrejmosť.
Úvod
- Datamining
- Pojem datamining
- Historický vývoj
- Dátové sklady
- Pred-spracovanie
- Metódy a nástroje
- Využitie a budúcnosť
- Klasifikácia
- Využtie error backpropagation-learningu pri klasifikácii
- Model neurónu
- Perceptron
- Jedno-vrstvový perceptron
- Viac-vrstvový perceptron
- Učenie
- Pred-spracovanie
- Budúcnosť
- Navrh
- Charakteristika problému
- Návrh riešenia
- Experiment na reálnych dátach
- Popis datasetu
- Predspracovanie
- Výber nástroja
- Konfigurácia a realizácia
- Diskusia
- Porovnanie výsledkov experimentu
Záver
streda 11. apríla 2012
Správa VI
Začal som vypracovávať drafty bakalarskej práce. Konkrétne sa mi podarilo vypracovať solídny základ teórie o data miningu a klasifikácii, ktoré už budú len upravované alebo doplňované podla potreby a začlenené do príslušných kapitol. Spoznámkoval som taktiež kľúčové poznatky o backpropagation učení pre viac vrstvový perceptron. Ďalej pokračujem písanim draftov o klasifikacii pomocou backpropagation.
streda 28. marca 2012
Správa V
Tento týždeň sa mi podarilo uskutočniť konzúltáciu s pánom doc. Igor Farkašom, komu som veľmi vdačný. Pomohol mi učit na, ktoré teoretické oblasti sa mám zamerať ako poskytol niekoľko praktických rád.
Pokračujem v štúdiu knihy Neural Networks od Simona Haykina a sprácuvam materialy.
Pokračujem v štúdiu knihy Neural Networks od Simona Haykina a sprácuvam materialy.
nedeľa 25. marca 2012
Správa IV
Tento týždeň do mojej výpožičnej zbierky pribudli nasledovne knihy v tlačených verziách:
- Data Mining: Concepts and Techniques (autori: Jiawei Han a Micheline Kamber)
- Neural Networks: A Comprehensive Foundation (autor: Simon Hakyn)
streda 14. marca 2012
Správa III
Po
zvážení tém predchádzajúcich bakalárskych prác pomaly sa
utvrdzujem v tom, že nástroj dataminingu, ktorý si bude vyžadovať
vačšiu pozornosť budú neuronové sieťe. Pevne verím, že
napriek faktu, že genetické algoritmy boli témou diplomovej práce
Aleksandra
Takača: Genetic
programming data mining : Cellular approach, zostáva mi ešte
čím prispiet. Po prestudovaní spomentutej práce vyhodnotím ďalši
postup.
Preferujem
momentálne vrátane zbežného úvodu a rozboru metód, porovnať klasifikáciu
rozhodovacími stromami (napr. generovaými algoritmom ID3) a
klasifikáciu neuronovými sieťami s dôrazom na neurónové siete. Zatiaľ ako najpravdepodobnejšie
prevedenie pokladám použitie Feedforward neuronovej siete. Avšak
rozsah implementácie je otázka, na ktorú neviem odpovedať zatial.
Užitočné
linky o neuronových sieťach
- krátky úvod do DM(datamining)
- úuvod do NN(neural networks)
- praktické použitie NN v DM
- Pattern Classification and Scene Analysis,
- klasika v odbore
- podobný autor: Fisher
- veľmi dobrý a k veci úvod do NN
Software
- zoznam rôzneho softwareu na klasifikaciu s NN
- free software na klasifikáciu s NN
- limitácie: pracuje len s bodmy (x,y), kde x,y ∊ R
- java implementácia NN so spustiteľnými príkladmi
- licencia GPLv3
- možné limitácie: podporuje len spojité atribúty
Pokiaľ v poslednom bode spomenutá java implementácia NN, bude obsahovať danú limitáciu, a nenajdem iný vhodnejši software(knižnicu) na klasifikaciu s NN, vytvorí mi to príležitosť doimplementovať podporu pre enumerované atribúty.
streda 7. marca 2012
Správa II
Tento týždeň sa venujem špecifikácií
oblastí a metód dataminingu, ktoré budem skúmať v mojej práci.
Zistil som nasledovné informácie relevantné k mojej práci.
Pre teoretickú časť som objavil
ďalšiu kvalitnú literatúru zaoberajúcu sa predprípravou,
redukciou a spracovaním dát:
Data Mining: Concepts, Models, Methods, and Algorithms(link)by Mehmed KantardzicJohn Wiley & Sons 2003
Ďalej som sa zaoberal otázkou
implentačnej časti, konkrétne datasetom pre experiment. Od
získavania datasetu z internetu pomocou web-crawleru som upustil,
kvôli časovej neefektívnosti a otáznej legalite. Ako akademicky
prijateľná, a vo výskume dataminingu používaná, alternatíva sa
naskytla stránka: UC Irvine Machine Learning Repository(link).
Je to
otvorený repozitár rôznych databáz obsahujúcich empirické dáta
sprostredkované organizáciami, inštitúciami a firmami, ktoré
sa rozhodli podporiť vývoj tejto oblasti.
Každý
zverejnený dataset obsahuje vrátane špecifikácie štruktúry aj
odporúčanú metódu dataminingu. Na tento faktor budem prihliadať
pri výbere datasetu, aby som si zvolil vhodný experimentálny
príklad. Pred príkladom bude predchádzať adekvátne vysvetlenie
relevantnej teórie.
streda 29. februára 2012
Sprava I
Toto je prvý článok, ktorý budem venovať k téme bakalárska praca.
Strucne predstavím moju tému, planované ciele pri tvorbe bakalárskej práci a doterajší postup.
Téma: Metódy dataminingu.
Školiťeľ: RNDr. Andrej Blaho PhD.
Ciele:
Datamining je multidisciplinárna oblasť, ktorá sa venuje extrakcii a spracovaniu dát. Vysledkom procesu dataminingu by mala byť určitá informacie (informácie), ktorá nebola dovtedy známa. Datamining sa objavuje vo viacerich doménach: informatike, ekonomike, genetike a pod.
V mojej práci by som rád detailnejšie rozvinul rozbor metód dataminingu používaných špecificky pri extrakcii dat z webstránok. Voľne budem nadväzovat pravdepodobne na bakalársku prácu Mareka Mardiaka - Datamining, princípy a metódy.
Moj doterajši postup spočíval v zhromazďovaniu informácií o dataminingu a ich stúdiu. Rad by som spomenul časť publikácií, z ktorých budem čerpať:
V teoretickej časti spomina metódy(klasifikacia dát, segmentácia, asociačná analýza) a v implementačnej časti predniesol príklad dataminingu a jeho metod na predvidanie zemetrasenia na zaklade dátach o predošlích zemetraseniach. Priklady uviedol v software-och z tretej strany. Práca mi poskytla užitočný pohlad na existujúce metódy ako aj na jednu z možných implementácií. Spomenuté metódy sa pokúsim vzťahovať na moju doménu a budem nadväzovať dalšími teoretickými poznatkami v pripade, že si to moja téma bude vyžadovať.
Strucne predstavím moju tému, planované ciele pri tvorbe bakalárskej práci a doterajší postup.
Téma: Metódy dataminingu.
Školiťeľ: RNDr. Andrej Blaho PhD.
Ciele:
1. Analyzovať existujúce metódy Dataminingu
2. Porovnať existujúce koncepty
3. Čiastočne implementovať jednu vybranú metódu Dataminingu na nejakej konkrétnej aplikačnej oblasti
Datamining je multidisciplinárna oblasť, ktorá sa venuje extrakcii a spracovaniu dát. Vysledkom procesu dataminingu by mala byť určitá informacie (informácie), ktorá nebola dovtedy známa. Datamining sa objavuje vo viacerich doménach: informatike, ekonomike, genetike a pod.
V mojej práci by som rád detailnejšie rozvinul rozbor metód dataminingu používaných špecificky pri extrakcii dat z webstránok. Voľne budem nadväzovat pravdepodobne na bakalársku prácu Mareka Mardiaka - Datamining, princípy a metódy.
Moj doterajši postup spočíval v zhromazďovaniu informácií o dataminingu a ich stúdiu. Rad by som spomenul časť publikácií, z ktorých budem čerpať:
1. Data Mining: Concepts and Techniques(link)
2. The elements of statistical learning: data mining, inference and prediction (link)
3. Mareka Mardiaka - Datamining, princípy a metódy (link)Tento týžden som sa zameral na štúdium vyššie spomenutej publikácie č.3 .
V teoretickej časti spomina metódy(klasifikacia dát, segmentácia, asociačná analýza) a v implementačnej časti predniesol príklad dataminingu a jeho metod na predvidanie zemetrasenia na zaklade dátach o predošlích zemetraseniach. Priklady uviedol v software-och z tretej strany. Práca mi poskytla užitočný pohlad na existujúce metódy ako aj na jednu z možných implementácií. Spomenuté metódy sa pokúsim vzťahovať na moju doménu a budem nadväzovať dalšími teoretickými poznatkami v pripade, že si to moja téma bude vyžadovať.
Prihlásiť na odber:
Príspevky (Atom)