Ανάλυση αξιολογήσεων προϊόντων στον ψηφιακό κόσμο.
Abstract
Η παρούσα μεταπτυχιακή διατριβή εμπίπτει στην εξόρυξη γνώμης (opinion mining) και στην ανάλυση συναισθήματος (sentiment analysis) μέσω επεξεργασίας της φυσικής γλώσσας (natural language processing). Σκοπός μας ήταν να αναλύσουμε αξιολογήσεις προϊόντων της πλατφόρμας BestPrice.gr. Για τη συλλογή των δεδομένων επιλέχθηκαν δέκα συγκεκριμένες κατηγορίες από τις οποίες συλλέχθηκαν αξιολογήσεις. Στο πρώτο στάδιο της διαδικασίας πραγματοποιήθηκε προεπεξεργασία των δεδομένων (preprocessing), δηλαδή έγινε αφαίρεση των stopwords και καθαρισμός από μη χρήσιμα δεδομένα που δεν είχαν κάποια ουσιαστική αξία. Μετά το στάδιο της προεπεξεργασίας επιλέχθηκαν οι τέσσερις σημαντικότερες κατηγορίες προϊόντων, δηλαδή αυτές με το μεγαλύτερο αριθμό αξιολογήσεων. Για κάθε κατηγορία δημιουργήσαμε word clouds για να βρούμε τις λέξεις με τη μεγαλύτερη συχνότητα και να εντοπίσουμε ομοιότητες και διαφορές των λέξεων αυτών μεταξύ των κατηγοριών. Πραγματοποιήθηκε λεξικογραφική ανάλυση μέσω ελληνικού συναισθηματικού λεξικού όπου υπολογίστηκαν 8 διαφορετικά scores τα οποία αφορούν το sentiment, το subjectivity και 6 affects τα οποία είναι τα anger, disgust, fear, happy, sad και surprise. Με χρήση γραφημάτων τύπου scatter plot και boxplot, υπολογίσαμε το συναίσθημα που εκφράζεται για κάθε κατηγορία καθώς και πώς αυτό επηρεάζεται από το rating. Τα αποτελέσματα έδειξαν ότι όσο ανεβαίνει το rating (1-5), τόσο μεγαλώνει και το score για το συναίσθημα (θετικό), τη χαρά αλλά και για την υποκειμενικότητα. Αντίθετα όσο ανεβαίνει το rating μειώνονται τα scores για θυμό, απέχθεια, φόβο, και λύπη, πράγμα το οποίο είναι λογικό όταν μιλάμε για μια θετική αξιολόγηση. Όσον αφορά το score της έκπληξης είναι ουδέτερο καθώς μπορεί να απεικονίζει και θετικό αλλά και αρνητικό συναίσθημα.