streda 28. marca 2012

Správa V

Tento týždeň sa mi podarilo uskutočniť konzúltáciu s pánom doc. Igor Farkašom, komu som veľmi vdačný. Pomohol mi učit na, ktoré teoretické oblasti sa mám zamerať ako poskytol niekoľko praktických rád. 


Pokračujem v štúdiu knihy Neural Networks od Simona Haykina a sprácuvam materialy.

nedeľa 25. marca 2012

Správa IV

Tento týždeň do mojej výpožičnej zbierky pribudli nasledovne knihy v tlačených verziách:
  • Data Mining: Concepts and Techniques (autori: Jiawei Han a Micheline Kamber) 
  • Neural Networks: A Comprehensive Foundation (autor: Simon Hakyn)
Čo sa týka štúdia taktiež pokračujem v spisovaní informácií o feedforward sieťach z knihy "Data Mining: Concepts, Models, Methods, and Algorithms". Paralelne opisujú obidve knihy so spoločným menovateľom "Data mining" problematiku klasifikácie neurónovými sieťami, avšak každá iným podaním, čo je obohacujúce.


streda 14. marca 2012

Správa III

Po zvážení tém predchádzajúcich bakalárskych prác pomaly sa utvrdzujem v tom, že nástroj dataminingu, ktorý si bude vyžadovať vačšiu pozornosť budú neuronové sieťe. Pevne verím, že napriek faktu, že genetické algoritmy boli témou diplomovej práce Aleksandra Takača: Genetic programming data mining : Cellular approach, zostáva mi ešte čím prispiet. Po prestudovaní spomentutej práce vyhodnotím ďalši postup. 

Preferujem momentálne vrátane zbežného úvodu a rozboru metód, porovnať klasifikáciu rozhodovacími stromami (napr. generovaými algoritmom ID3) a klasifikáciu neuronovými sieťami s dôrazom na neurónové siete. Zatiaľ ako najpravdepodobnejšie prevedenie pokladám použitie Feedforward neuronovej siete. Avšak rozsah implementácie je otázka, na ktorú neviem odpovedať zatial.

Užitočné linky o neuronových sieťach

  • krátky úvod do DM(datamining)
  • úuvod do NN(neural networks)
  • praktické použitie NN v DM

  • Pattern Classification and Scene Analysis,
  • klasika v odbore
  • podobný autor: Fisher
  • veľmi dobrý a k veci úvod do NN
 
Software

  • zoznam rôzneho softwareu na klasifikaciu s NN

  • free software na klasifikáciu s NN
  • limitácie: pracuje len s bodmy (x,y), kde x,y ∊ R
  • java implementácia NN so spustiteľnými príkladmi
  • licencia GPLv3
  • možné limitácie:  podporuje len spojité atribúty
Pokiaľ v poslednom bode spomenutá java implementácia NN, bude obsahovať danú limitáciu, a nenajdem iný vhodnejši software(knižnicu) na klasifikaciu s NN, vytvorí mi to príležitosť doimplementovať podporu pre enumerované atribúty.

streda 7. marca 2012

Správa II


Tento týždeň sa venujem špecifikácií oblastí a metód dataminingu, ktoré budem skúmať v mojej práci. Zistil som nasledovné informácie relevantné k mojej práci.

Pre teoretickú časť som objavil ďalšiu kvalitnú literatúru zaoberajúcu sa predprípravou, redukciou a spracovaním dát:

Data Mining: Concepts, Models, Methods, and Algorithms(link)
by Mehmed Kantardzic

John Wiley & Sons 2003


Ďalej som sa zaoberal otázkou implentačnej časti, konkrétne datasetom pre experiment. Od získavania datasetu z internetu pomocou web-crawleru som upustil, kvôli časovej neefektívnosti a otáznej legalite. Ako akademicky prijateľná, a vo výskume dataminingu používaná, alternatíva sa naskytla stránka: UC Irvine Machine Learning Repository(link).
Je to otvorený repozitár rôznych databáz obsahujúcich empirické dáta sprostredkované organizáciami, inštitúciami a firmami, ktoré sa rozhodli podporiť vývoj tejto oblasti.

Každý zverejnený dataset obsahuje vrátane špecifikácie štruktúry aj odporúčanú metódu dataminingu. Na tento faktor budem prihliadať pri výbere datasetu, aby som si zvolil vhodný experimentálny príklad. Pred príkladom bude predchádzať adekvátne vysvetlenie relevantnej teórie.