Συγκριτική μελέτη εργαλείων μηχανικής μάθησης στην εξόρυξη κειμένων
Abstract
Το διαδίκτυο συγκεντρώνει μεγάλες ποσότητες πληροφοριών, οι οποίες λόγω του όγκου τους πολλές φορές μένουν αναξιοποίητες. Οι τεχνικές εξόρυξης γνώσης μπορούν να αυτοματοποιήσουν τη διαδικασία της ανάκτησης χρήσιμων πληροφοριών από τον ιστό και να συνδυαστούν με συστήματα που μπορούν να αξιοποιήσουν τη γνώση αυτή. Αναδεικνύεται επομένως η επιτακτική ανάγκη σύγκρισης των εργαλείων που θα διευκολύνουν την προσπέλαση και τη διαχείριση της διαθέσιμης πληροφορίας ανάλογα με τις ανάγκες των χρηστών.
Αντικείμενο της παρούσας μεταπτυχιακής διατριβής είναι μια σύγκριση σε βάθος των κορυφαίων λογισμικών ανοιχτού κώδικα, σε πολλά επίπεδα όπως ποικιλία αλγορίθμων που υλοποιούνται, ποικιλία εργαλείων προ-επεξεργασίας κειμένων, υπολογιστικοί πόροι που καταλαμβάνουν, παρουσίαση αποτελεσμάτων, κοινότητα χρηστών, ευελιξία επέκτασης, ευχρηστία κ.λ.π., με έμφαση στις διεργασίες αυτόματης ανάλυσης κειμένων όπως κατηγοριοποίηση (classification) και συσταδοποίηση (clustering), στο πεδίο της εξόρυξης κειμένου. Τα υπό εξέταση λογισμικά είναι το R, το Weka, το Rapid Miner και scikit learn (Python).
Πιο συγκεκριμένα, αρχικά παρουσιάζεται μια εισαγωγή στην έννοια της εξόρυξης κειμένου και των λογισμικών ανοιχτού κώδικα καθώς εξετάζεται η δομή, η λειτουργικότητα και οι επιμέρους εφαρμογές των υπό εξέταση λογισμικών, αλλά και η άποψη του συγγραφέα αναφορικά με τα κριτήρια ευχρηστίας προκειμένου να δημιουργηθεί μία πρώτη ιδέα ως προς την ποιότητα, τη χρησιμότητα και το περιεχόμενο του καθενός από αυτά. Στη συνέχεια, γίνεται μια αναφορά στους πιο βασικούς αλγορίθμους μηχανικής μάθησης και στις μετρικές αξιολόγησης τους, προκειμένου να πραγματοποιηθεί η συγκριτική μελέτη των πλεονεκτημάτων και των μειονεκτημάτων των υπό εξέταση λογισμικών μέσω των αποτελεσμάτων της πειραματικής ανάλυσης των παραπάνω μεθόδων.
Συνοψίζοντας, ο στόχος της παρούσας μεταπτυχιακής διατριβής είναι η πραγματοποίηση μιας συγκριτικής μελέτης των υπό εξέταση λογισμικών, ώστε ο χρήστης δεδομένου ενός προβλήματος εφαρμογής να είναι σε θέση να επιλέξει την βέλτιστη τεχνική (εργαλείο) βάσει των προτεραιοτήτων του.