Εξόρυξη λεξικού όρων γνώμης απο αξιολογήσεις χρηστών
Abstract
Κύριος στόχος της διπλωματικής είναι η εξόρυξη λέξεων γνώμης και της αντίστοιχης πολικότητας τους μέσα από κείμενο που περιλαμβάνει γνώμες. Για το σκοπό αυτό επιστρατεύτηκαν μεθοδολογίες ανάλυσης κειμένου και πρότυπα, ώστε ο αλγόριθμος που σχεδιάστηκε να αναγνωρίζει λέξεις γνώμης και να κατατάσσει την πολικότητα τους ανάλογα με το συναίσθημα που αυτές εκφράζουν μέσα σε μία πρόταση.
Συγκεκριμένα για την επίτευξη των παραπάνω στόχων ο αλγόριθμος που σχεδιάστηκε χρησιμοποιεί μεθοδολογίες τόσο επιβλεπόμενης όσο και μη επιβλεπόμενης μάθησης έτσι όπως αυτές ορίζονται μέσα από τα κείμενα της βιβλιογραφίας. Ο αλγόριθμος που προτείνεται αναπτύσσεται σε τρία στάδια. Αρχικά εφαρμόζεται μια μεθοδολογία επιβλεπόμενης μάθησης κατά την οποία τροφοδοτείται με λέξεις γνώμης γνωστής πολικότητας, καθώς και γραμματικές και συντακτικές σταθερές οι οποίες θα αποτελέσουν τους κανόνες και τα πρότυπα μάθησης. Στο δεύτερο στάδιο (ημί – επιβλεπόμενη μάθηση) εξορύσσονται νέες λέξεις γνώμης στηριζόμενοι στη συνέπεια συναισθήματος έτσι όπως αυτή ορίζεται από λέξεις γνώμης και λέξεις συνδέσεως μέσα στο κείμενο. Στο τρίτο στάδιο (Μη επιβλεπόμενη μάθηση) ο αλγόριθμος χρησιμοποιεί τη μέθοδο της διπλής διάδοσης για την εύρεση νέων λέξεων γνώμης, ενώ δίνεται η δυνατότητα μέσω φιλτραρίσματος να ενισχυθούν οι πραγματικές από τις άσχετες λέξεις.
Τέλος μελετήθηκαν τα πλεονεκτήματα και τα μειονεκτήματα των παραπάνω προσεγγίσεων. Έγινε χρήση κατάλληλων μετρικών για την αξιολόγηση του προτασσόμενου αλγορίθμου, ενώ τα δεδομένα για τη διεξαγωγή των συμπερασμάτων λήφθηκαν από συλλογή γνωμών από γνωστό ελληνικό κατάστημα δια-δικτυακής πώλησης ηλεκτρονικών συσκευών.