streda 7. marca 2012

Správa II


Tento týždeň sa venujem špecifikácií oblastí a metód dataminingu, ktoré budem skúmať v mojej práci. Zistil som nasledovné informácie relevantné k mojej práci.

Pre teoretickú časť som objavil ďalšiu kvalitnú literatúru zaoberajúcu sa predprípravou, redukciou a spracovaním dát:

Data Mining: Concepts, Models, Methods, and Algorithms(link)
by Mehmed Kantardzic

John Wiley & Sons 2003


Ďalej som sa zaoberal otázkou implentačnej časti, konkrétne datasetom pre experiment. Od získavania datasetu z internetu pomocou web-crawleru som upustil, kvôli časovej neefektívnosti a otáznej legalite. Ako akademicky prijateľná, a vo výskume dataminingu používaná, alternatíva sa naskytla stránka: UC Irvine Machine Learning Repository(link).
Je to otvorený repozitár rôznych databáz obsahujúcich empirické dáta sprostredkované organizáciami, inštitúciami a firmami, ktoré sa rozhodli podporiť vývoj tejto oblasti.

Každý zverejnený dataset obsahuje vrátane špecifikácie štruktúry aj odporúčanú metódu dataminingu. Na tento faktor budem prihliadať pri výbere datasetu, aby som si zvolil vhodný experimentálny príklad. Pred príkladom bude predchádzať adekvátne vysvetlenie relevantnej teórie.


Žiadne komentáre:

Zverejnenie komentára