dc.description.abstract | Η συγκεκριμένη μεταπτυχιακή διατριβή έχει ως σκοπό τον εντοπισμό αποδοτικών τεχνικών για τον προσδιορισμό χρηστών με παρόμοια συμπεριφορά. Εστιάζοντας σε χρήστες ηλεκτρονικών καταστημάτων, στοχεύουμε μέσω της ανάλυσης που παρουσιάζεται, να εντοπίσουμε χρήστες με παρόμοια καταναλωτική συμπεριφορά, ή διαφορετικά, παρόμοιους καταναλωτές. Η ανάγκη αυτή, εμφανίζεται κατά τη σχεδίαση και δημιουργία εφαρμογών ηλεκτρονικού εμπορίου, αλλά και σε πολλές ηλεκτρονικές εφαρμογές, που παρέχουν ποικίλα είδη ηλεκτρονικής πληροφορίας.
Το γενικότερο πρόβλημα, με το οποίο σχετίζεται το πρόβλημα εύρεσης παρόμοιων χρηστών, είναι αυτό του εντοπισμού και της πρότασης σε χρήστες μίας εφαρμογής, πληροφορίας που “μπορεί να τους ενδιαφέρει”, ή διαφορετικά της δημιουργίας συστημάτων συστάσεων (recommendation systems). Στις περισσότερες ηλεκτρονικές εφαρμογές, οι προτάσεις αυτές βασίζονται στην καταγεγραμμένη συμπεριφορά του χρήστη, καθώς και σε στοιχεία που παρέχει ο χρήστης, ανάλογα με τις προτιμήσεις και τα ενδιαφέροντά του.
Καθώς η χρήση των ηλεκτρονικών υπηρεσιών του Web αποτελεί ένα καθιερωμένο τρόπο αναζήτησης πληροφορίας, όπως και ανάπτυξης εμπορίου καταναλωτικών αγαθών, τα δεδομένα που καταγράφονται και διαχειρίζονται από ηλεκτρονικές εφαρμογές, αυξάνουν ραγδαία, τείνοντας σε πολλές περιπτώσεις να καταρρίπτουν καθιερωμένους τρόπους επεξεργασίας τους. Αυτό έχει ως αποτέλεσμα, ο μεγάλος όγκος της διαθέσιμης πληροφορίας που διαχειρίζεται μία ηλεκτρονική εφαρμογή, να δημιουργεί την ανάγκη εύρεσης νέων μεθόδων επεξεργασίας, οι οποίες είναι επεκτάσιμες ως προς τον όγκο των δεδομένων που διαχειρίζονται. Σε αυτό το πλαίσιο, οι τεχνικές που εξετάζονται και προτείνονται από την συγκεκριμένη εργασία, βασίζονται στην διαχείριση μεγάλου όγκου δεδομένων, και ειδικότερα, βασίζονται στην χρήση της παράλληλης υποδομής Map Reduce, που αναπτύχθηκε από την Google.
Η συγκεκριμένη διατριβή παραθέτει μία λεπτομερή ανάλυση αλγορίθμων για τον εντοπισμό όμοιων στοιχείων (finding similar items) σε μία συλλογή δεδομένων, θεωρώντας μεγάλο όγκο διαθέσιμων δεδομένων. Επίσης προτείνεται ο αλγόριθμος MinHashingMR για την εύρεση όμοιων στοιχείων κάνοντας χρήση του περιβάλλοντος Map Reduce. Ειδικότερα, αναλύονται οι σημαντικότεροι αλγόριθμοι εύρεσης όμοιων στοιχείων σε περιβάλλον Map Reduce, παρουσιάζονται τα κύρια χαρακτηριστικά του περιβάλλοντος Map Reduce, διατυπώνεται ο αλγόριθμος MinHashingMR και υλοποιείται με την χρήση του συστήματος Apache Hadoop, το
v.1 –5.10.12 ii
οποίο αποτελεί το ελεύθερο σύστημα προσομοίωσης του περιβάλλοντος Map Reduce. Η υλοποίηση του αλγορίθμου συνοδεύεται από την παροχή μίας λεπτομερούς ανάλυσης αποτελεσμάτων, σε πραγματικά δεδομένα, και από την παρουσίαση της γενικής αρχιτεκτονικής συστημάτων που κάνουν χρήση της συγκεκριμένης προσέγγισης.
Τέλος, σύμφωνα με τη μελέτη της συγκεκριμένης εργασίας, αποδεικνύεται ότι η χρήση του αλγορίθμου MinHashingMR, που δίνει προσεγγιστικές λύσεις του προβλήματος, βελτιώνει σημαντικά τον χρόνο εντοπισμού όμοιων στοιχείων σε σύγκριση με προηγούμενους αλγόριθμους επίλυσης του προβλήματος, όπως επίσης και σε σχέση με τον σειριακό του πρόγονο, τον αλγόριθμο MinHashing. | el_GR |
dc.description.translatedabstract | This thesis aims to identify effective techniques in order to find users with similar purchasing behavior, or similarly, similar consumers, especially focusing on e-shop users. This need occurs at the design and creation of e-commerce, but also in many electronic applications, providing various types of electronic information.
The general problem, which is associated with the problem of finding similar users, is to identify and propose information that a user "may be interested", or similarly, create recommendation systems to application users. In most electronic applications, such suggestions are based on the recorded user behavior, and on information supplied by the user, depending on their preferences and interests.
As the use of Web services is an established way to search for information, as well as to develop the trade of consumer goods, the data is recorded and handled by applications which are rapidly increasing. As a result, the large volume of information which has to be managed creates the need to find new treatment methods scalable to amounts of data. The techniques discussed and proposed by the particular job, are based on handling large amounts of data, and in particular, based on the use of Map Reduce, developed by Google.
This thesis gives a detailed analysis of algorithms for identifying similar items on a collection of large volume of available data. MinHashingMR is a proposed algorithm for finding similar items by means of Map Reduce environment. The most important algorithms in finding similar items in Map Reduce environment are being analyzed and the main characteristics of this environment are being presented. The MinHashingMR algorithm has been formulated and implemented by the use of the Apache Hadoop, which is the freeware, well-known, alternative to Google’s Map Reduce infrastructure. The implementation of the algorithm comes with a detailed results analysis, on real data, and the presentation of the overall architecture of systems that make use of this approach.
Finally, it is proved that the use of the MinHashingMR algorithm gives solution to the problem of finding elements common in approximation. Besides it improves greatly time tracking, compared with other algorithms, as well as in connection with its ancestor series algorithm MinHashing. | el_GR |