Tento týždeň sa venujem špecifikácií
oblastí a metód dataminingu, ktoré budem skúmať v mojej práci.
Zistil som nasledovné informácie relevantné k mojej práci.
Pre teoretickú časť som objavil
ďalšiu kvalitnú literatúru zaoberajúcu sa predprípravou,
redukciou a spracovaním dát:
Data Mining: Concepts, Models, Methods, and Algorithms(link)by Mehmed KantardzicJohn Wiley & Sons 2003
Ďalej som sa zaoberal otázkou
implentačnej časti, konkrétne datasetom pre experiment. Od
získavania datasetu z internetu pomocou web-crawleru som upustil,
kvôli časovej neefektívnosti a otáznej legalite. Ako akademicky
prijateľná, a vo výskume dataminingu používaná, alternatíva sa
naskytla stránka: UC Irvine Machine Learning Repository(link).
Je to
otvorený repozitár rôznych databáz obsahujúcich empirické dáta
sprostredkované organizáciami, inštitúciami a firmami, ktoré
sa rozhodli podporiť vývoj tejto oblasti.
Každý
zverejnený dataset obsahuje vrátane špecifikácie štruktúry aj
odporúčanú metódu dataminingu. Na tento faktor budem prihliadať
pri výbere datasetu, aby som si zvolil vhodný experimentálny
príklad. Pred príkladom bude predchádzať adekvátne vysvetlenie
relevantnej teórie.
Žiadne komentáre:
Zverejnenie komentára