Αποδοτικές τεχνικές ανίχνευσης πελατών με παρόμοια καταναλωτική συμπεριφορά
Abstract
Η συγκεκριμένη μεταπτυχιακή διατριβή έχει ως σκοπό τον εντοπισμό αποδοτικών τεχνικών για τον προσδιορισμό χρηστών με παρόμοια συμπεριφορά. Εστιάζοντας σε χρήστες ηλεκτρονικών καταστημάτων, στοχεύουμε μέσω της ανάλυσης που παρουσιάζεται, να εντοπίσουμε χρήστες με παρόμοια καταναλωτική συμπεριφορά, ή διαφορετικά, παρόμοιους καταναλωτές. Η ανάγκη αυτή, εμφανίζεται κατά τη σχεδίαση και δημιουργία εφαρμογών ηλεκτρονικού εμπορίου, αλλά και σε πολλές ηλεκτρονικές εφαρμογές, που παρέχουν ποικίλα είδη ηλεκτρονικής πληροφορίας.
Το γενικότερο πρόβλημα, με το οποίο σχετίζεται το πρόβλημα εύρεσης παρόμοιων χρηστών, είναι αυτό του εντοπισμού και της πρότασης σε χρήστες μίας εφαρμογής, πληροφορίας που “μπορεί να τους ενδιαφέρει”, ή διαφορετικά της δημιουργίας συστημάτων συστάσεων (recommendation systems). Στις περισσότερες ηλεκτρονικές εφαρμογές, οι προτάσεις αυτές βασίζονται στην καταγεγραμμένη συμπεριφορά του χρήστη, καθώς και σε στοιχεία που παρέχει ο χρήστης, ανάλογα με τις προτιμήσεις και τα ενδιαφέροντά του.
Καθώς η χρήση των ηλεκτρονικών υπηρεσιών του Web αποτελεί ένα καθιερωμένο τρόπο αναζήτησης πληροφορίας, όπως και ανάπτυξης εμπορίου καταναλωτικών αγαθών, τα δεδομένα που καταγράφονται και διαχειρίζονται από ηλεκτρονικές εφαρμογές, αυξάνουν ραγδαία, τείνοντας σε πολλές περιπτώσεις να καταρρίπτουν καθιερωμένους τρόπους επεξεργασίας τους. Αυτό έχει ως αποτέλεσμα, ο μεγάλος όγκος της διαθέσιμης πληροφορίας που διαχειρίζεται μία ηλεκτρονική εφαρμογή, να δημιουργεί την ανάγκη εύρεσης νέων μεθόδων επεξεργασίας, οι οποίες είναι επεκτάσιμες ως προς τον όγκο των δεδομένων που διαχειρίζονται. Σε αυτό το πλαίσιο, οι τεχνικές που εξετάζονται και προτείνονται από την συγκεκριμένη εργασία, βασίζονται στην διαχείριση μεγάλου όγκου δεδομένων, και ειδικότερα, βασίζονται στην χρήση της παράλληλης υποδομής Map Reduce, που αναπτύχθηκε από την Google.
Η συγκεκριμένη διατριβή παραθέτει μία λεπτομερή ανάλυση αλγορίθμων για τον εντοπισμό όμοιων στοιχείων (finding similar items) σε μία συλλογή δεδομένων, θεωρώντας μεγάλο όγκο διαθέσιμων δεδομένων. Επίσης προτείνεται ο αλγόριθμος MinHashingMR για την εύρεση όμοιων στοιχείων κάνοντας χρήση του περιβάλλοντος Map Reduce. Ειδικότερα, αναλύονται οι σημαντικότεροι αλγόριθμοι εύρεσης όμοιων στοιχείων σε περιβάλλον Map Reduce, παρουσιάζονται τα κύρια χαρακτηριστικά του περιβάλλοντος Map Reduce, διατυπώνεται ο αλγόριθμος MinHashingMR και υλοποιείται με την χρήση του συστήματος Apache Hadoop, το
v.1 –5.10.12 ii
οποίο αποτελεί το ελεύθερο σύστημα προσομοίωσης του περιβάλλοντος Map Reduce. Η υλοποίηση του αλγορίθμου συνοδεύεται από την παροχή μίας λεπτομερούς ανάλυσης αποτελεσμάτων, σε πραγματικά δεδομένα, και από την παρουσίαση της γενικής αρχιτεκτονικής συστημάτων που κάνουν χρήση της συγκεκριμένης προσέγγισης.
Τέλος, σύμφωνα με τη μελέτη της συγκεκριμένης εργασίας, αποδεικνύεται ότι η χρήση του αλγορίθμου MinHashingMR, που δίνει προσεγγιστικές λύσεις του προβλήματος, βελτιώνει σημαντικά τον χρόνο εντοπισμού όμοιων στοιχείων σε σύγκριση με προηγούμενους αλγόριθμους επίλυσης του προβλήματος, όπως επίσης και σε σχέση με τον σειριακό του πρόγονο, τον αλγόριθμο MinHashing.