Τεχνικές και αλγόριθμοι ομαδοποίησης στην εξόρυξη δεδομένων
Abstract
Στην σύγχρονη εποχή της πληροφορίας απαιτείται ένα εργαλείο για την ανάλυση και ερμηνεία της τεράστιας ποσότητας αποθηκευμένων δεδομένων, με στόχο την εξαγωγή της γνώσης που θα βοηθήσει την ουσιαστική και απρόσκοπτη διαδικασία λήψης αποφάσεων. Το εργαλείο αυτό είναι η εξόρυξη δεδομένων. Η εξόρυξη δεδομένων έχει σαν βασικούς της στόχους την εφαρμογή τεχνικών πρόβλεψης και περιγραφής σε μεγάλες βάσεις δεδομένων, στόχοι που επιτυγχάνονται μέσω μιας σειράς διαδικασιών, όπως η ομαδοποίηση, η ταξινόμηση, η ανάλυση συσχέτισης κλπ.
Στόχος της παρούσας εργασίας, και χρησιμοποιώντας την πρόσφατη διεθνή βιβλιογραφία είναι να γίνει μια σε βάθος μελέτη, περιγραφή και ανάλυση των τεχνικών της ομαδοποίησης στην εξόρυξη δεδομένων, να αναλυθούν διεξοδικά αλγόριθμοι-κλειδιά όπως π.χ. ο k-means και η όλη λογική που αυτός εισάγει στο πεδίο. Ενώ παράλληλα, θα περιγραφεί και θα χρησιμοποιηθεί για εφαρμογές ομαδοποίησης σε πραγματικές βάσεις δεδομένων, το ελεύθερο λογισμικό WEKA του Πανεπιστημίου της Νέας Ζηλανδίας Waikato. Η εκτίμηση των αποτελεσμάτων που προέκυψαν έγινε με τη βοήθεια γνωστών δεικτών εγκυρότητας ομάδων, όπως οι: Silhouette index, Dunn, Davies-Bouldin και άλλοι, που υλοποιήθηκαν στο Matlab.