streda 16. mája 2012

Správa XI

Venoval som sa písaním textu 3. kapitoly týkajucej sa návrhu a 4. kapitoly. Pripravil som predbeznú formu prezentácie, ktorú odprezentujem na bakalárskom semináry.

streda 9. mája 2012

Správa X

Venoval som sa realizácii experimentov s porovnaním nástrojov a písaním príslušných textov 4. kapitoly o realizácii experimentu. Výsledkom čoho som si zvolil nástroj určený pre data mining RapidMiner. Kedže v prezentácii experimentu nebudem sa zameriavať na MSE ale na celkovú úspešnosť klasifikácie spomenutý nástroj je najviac vyhovujúci.

streda 2. mája 2012

Sprava IX

Tento týždeň som sa venoval písaniu a čisteniu textov v teoretickej časti.

Src: http://1.bp.blogspot.com/-9F-l1ML9j1Y/TZDQ3fvLDvI/AAAAAAAAAII/F_UMfZoId3I/s1600/neuron-network.jpg

streda 25. apríla 2012

Sprava VIII

Tento týždeň som venoval experimentu s feedforward sietou s použitím 3rd party java implementacie na realnych datach. Konkrétne dáta z bc. práce Mareka Mardiaka z 2008, pre porovnanie výsledkov, kde výsledky sú porovnateľé avšak priemerná chyba pre testovaciu množinu sa blížila 20% čo pre neurónovú sieť nie je ideálne. Avšak berúc do úvahy fakt, že úloha dolovania je predpoveď zemetrsení na zaklade polohy, hlbky a počtu stanic ktoré udalosť zaznamenali, je pravdepodobné že lepšie výsledky sa použitá metóda klasického backpropagation lepšie výsledky nedosiahne.


Uvediem ilustračný graf závislosti priemernej chyby od počtu epoch.
Konfiguracia:
- 4 vstupy (long., lat., depth, no. of stations)
- 1 výstup
- 3 vrstvový perceptron
- plne prepojený
- skryté vrstvy logistická aktivačna funkcia
- výstupná vrstva linearna aktivačna funkcia
- trenovanie 2000 epoch



streda 18. apríla 2012

Správa VII

V tohto tíždňovej správe zverejním predbežný obsah mojej bakalárskej práce. Rád by som zdôraznil slovo "predbežný". Obsah bude učite dopĺňovaný a nazvy budú upravované, aby lepšie vystihli myšlienku. Budem ho tíždenne aktualizovať v prípade zmeny. Zverejnená bude časť medzi úvodom a záverom, zvýšok považujte za samozrejmosť.


    Úvod
  1. Datamining
    1. Pojem datamining
    2. Historický vývoj
    3. Dátové sklady
    4. Pred-spracovanie
    5. Metódy a nástroje
    6. Využitie a budúcnosť
  2. Klasifikácia
    1. Využtie error backpropagation-learningu pri klasifikácii
    2. Model neurónu
    3. Perceptron
      1. Jedno-vrstvový perceptron
      2. Viac-vrstvový perceptron
    4. Učenie
    5. Pred-spracovanie
    6. Budúcnosť
  3. Navrh
    1. Charakteristika problému
    2. Návrh riešenia
  4. Experiment na reálnych dátach
    1. Popis datasetu
    2. Predspracovanie
    3. Výber nástroja
    4. Konfigurácia a realizácia
  5. Diskusia
    1. Porovnanie výsledkov experimentu
        Záver


Čo sa týka pokroku v práci úspešne pokračujem v písaní témy obsiahnutéj v 2. kapitole. Prišlo mi na um zopakovať experiment z bakalarskej práce Mareka Mardiaka z 2008, ktorý ho realizoval rozhodovacími stromami. Ja ho zrealizujem s pomocou backpropagation a tak budem vediet urobiť porovnanie.

streda 11. apríla 2012

Správa VI

Začal som vypracovávať drafty bakalarskej práce. Konkrétne sa mi podarilo vypracovať solídny základ teórie o data miningu a klasifikácii, ktoré už budú len upravované alebo doplňované podla potreby a začlenené do príslušných kapitol. Spoznámkoval som taktiež kľúčové poznatky o backpropagation učení pre viac vrstvový perceptron. Ďalej pokračujem písanim draftov o klasifikacii pomocou backpropagation.

streda 28. marca 2012

Správa V

Tento týždeň sa mi podarilo uskutočniť konzúltáciu s pánom doc. Igor Farkašom, komu som veľmi vdačný. Pomohol mi učit na, ktoré teoretické oblasti sa mám zamerať ako poskytol niekoľko praktických rád. 


Pokračujem v štúdiu knihy Neural Networks od Simona Haykina a sprácuvam materialy.

nedeľa 25. marca 2012

Správa IV

Tento týždeň do mojej výpožičnej zbierky pribudli nasledovne knihy v tlačených verziách:
  • Data Mining: Concepts and Techniques (autori: Jiawei Han a Micheline Kamber) 
  • Neural Networks: A Comprehensive Foundation (autor: Simon Hakyn)
Čo sa týka štúdia taktiež pokračujem v spisovaní informácií o feedforward sieťach z knihy "Data Mining: Concepts, Models, Methods, and Algorithms". Paralelne opisujú obidve knihy so spoločným menovateľom "Data mining" problematiku klasifikácie neurónovými sieťami, avšak každá iným podaním, čo je obohacujúce.


streda 14. marca 2012

Správa III

Po zvážení tém predchádzajúcich bakalárskych prác pomaly sa utvrdzujem v tom, že nástroj dataminingu, ktorý si bude vyžadovať vačšiu pozornosť budú neuronové sieťe. Pevne verím, že napriek faktu, že genetické algoritmy boli témou diplomovej práce Aleksandra Takača: Genetic programming data mining : Cellular approach, zostáva mi ešte čím prispiet. Po prestudovaní spomentutej práce vyhodnotím ďalši postup. 

Preferujem momentálne vrátane zbežného úvodu a rozboru metód, porovnať klasifikáciu rozhodovacími stromami (napr. generovaými algoritmom ID3) a klasifikáciu neuronovými sieťami s dôrazom na neurónové siete. Zatiaľ ako najpravdepodobnejšie prevedenie pokladám použitie Feedforward neuronovej siete. Avšak rozsah implementácie je otázka, na ktorú neviem odpovedať zatial.

Užitočné linky o neuronových sieťach

  • krátky úvod do DM(datamining)
  • úuvod do NN(neural networks)
  • praktické použitie NN v DM

  • Pattern Classification and Scene Analysis,
  • klasika v odbore
  • podobný autor: Fisher
  • veľmi dobrý a k veci úvod do NN
 
Software

  • zoznam rôzneho softwareu na klasifikaciu s NN

  • free software na klasifikáciu s NN
  • limitácie: pracuje len s bodmy (x,y), kde x,y ∊ R
  • java implementácia NN so spustiteľnými príkladmi
  • licencia GPLv3
  • možné limitácie:  podporuje len spojité atribúty
Pokiaľ v poslednom bode spomenutá java implementácia NN, bude obsahovať danú limitáciu, a nenajdem iný vhodnejši software(knižnicu) na klasifikaciu s NN, vytvorí mi to príležitosť doimplementovať podporu pre enumerované atribúty.

streda 7. marca 2012

Správa II


Tento týždeň sa venujem špecifikácií oblastí a metód dataminingu, ktoré budem skúmať v mojej práci. Zistil som nasledovné informácie relevantné k mojej práci.

Pre teoretickú časť som objavil ďalšiu kvalitnú literatúru zaoberajúcu sa predprípravou, redukciou a spracovaním dát:

Data Mining: Concepts, Models, Methods, and Algorithms(link)
by Mehmed Kantardzic

John Wiley & Sons 2003


Ďalej som sa zaoberal otázkou implentačnej časti, konkrétne datasetom pre experiment. Od získavania datasetu z internetu pomocou web-crawleru som upustil, kvôli časovej neefektívnosti a otáznej legalite. Ako akademicky prijateľná, a vo výskume dataminingu používaná, alternatíva sa naskytla stránka: UC Irvine Machine Learning Repository(link).
Je to otvorený repozitár rôznych databáz obsahujúcich empirické dáta sprostredkované organizáciami, inštitúciami a firmami, ktoré sa rozhodli podporiť vývoj tejto oblasti.

Každý zverejnený dataset obsahuje vrátane špecifikácie štruktúry aj odporúčanú metódu dataminingu. Na tento faktor budem prihliadať pri výbere datasetu, aby som si zvolil vhodný experimentálny príklad. Pred príkladom bude predchádzať adekvátne vysvetlenie relevantnej teórie.


streda 29. februára 2012

Sprava I

Toto je prvý článok, ktorý budem venovať k téme bakalárska praca.
Strucne predstavím moju tému,   planované ciele pri tvorbe bakalárskej práci a doterajší postup.

Téma: Metódy dataminingu. 
Školiťeľ: RNDr. Andrej Blaho PhD.
Ciele:
1. Analyzovať existujúce metódy Dataminingu
2. Porovnať existujúce koncepty
3. Čiastočne implementovať jednu vybranú metódu Dataminingu na nejakej konkrétnej aplikačnej oblasti

Datamining je multidisciplinárna oblasť, ktorá sa venuje extrakcii a spracovaniu dát. Vysledkom procesu dataminingu by mala byť určitá informacie (informácie), ktorá nebola dovtedy známa. Datamining sa objavuje vo viacerich doménach: informatike, ekonomike, genetike a pod.

V mojej práci by som rád detailnejšie rozvinul rozbor metód dataminingu používaných špecificky pri extrakcii dat z webstránok. Voľne budem nadväzovat pravdepodobne na bakalársku prácu Mareka Mardiaka - Datamining, princípy a metódy.

Moj doterajši postup spočíval v zhromazďovaniu informácií o dataminingu a ich stúdiu. Rad by som spomenul časť publikácií, z ktorých budem čerpať:
1. Data Mining: Concepts and Techniques(link)
2. The elements of statistical learning: data mining, inference and prediction (link)
3. Mareka Mardiaka - Datamining, princípy a metódy (link)
Tento týžden som sa zameral na štúdium vyššie spomenutej publikácie č.3 .
V teoretickej časti spomina metódy(klasifikacia dát, segmentácia, asociačná analýza) a v implementačnej časti predniesol príklad dataminingu a jeho metod na predvidanie zemetrasenia na zaklade dátach o predošlích zemetraseniach. Priklady uviedol v software-och z tretej strany. Práca mi poskytla užitočný pohlad na existujúce metódy ako aj na jednu z možných implementácií. Spomenuté metódy sa pokúsim vzťahovať na moju doménu a budem nadväzovať dalšími teoretickými poznatkami v pripade, že si to moja téma bude vyžadovať.

Debug

Lorem ipsum lorem ipsum lorem ipsum lorem ipsum lorem ipsum ....