Ανίχνευση ιστότοπων ηλεκτρονικού ψαρέματος με χρήση εικόνων οπτικοποίησης και βαθιάς μάθησης
Abstract
Η ανάγκη για χρήση Διαδικτυακών υπηρεσιών, κατέστησαν το Διαδίκτυο αναπόσπαστο κομμάτι της καθημερινότητας μας. Ωστόσο η απλότητα του βοήθησε τους εγκληματίες του κυβερνοχώρου να εξαπατούν χρήστες και οργανισμούς με τη μέθοδο επίθεσης ηλεκτρονικού ψαρέματος, υποκλέπτοντας χρήματα και ευαίσθητα δεδομένα. Για τον λόγο αυτό, η επιστημονική κοινότητα επέδειξε το ενδιαφέρον μελέτης και αποτελεσματικής αντιμετώπισης αυτού του προβλήματος. Πολλές από τις μεθόδους ανίχνευσης ιστότοπων ηλεκτρονικού ψαρέματος που αναπτύσσονται σε πρόσφατες έρευνες κάνουν χρήση Μηχανικής Μάθησης και Τεχνητών Νευρωνικών Δικτύων τα οποία αποτελούν ένα νέο εργαλείο για την αντιμετώπιση του προβλήματος. Σκοπός της παρούσας μεταπτυχιακής διατριβής είναι να διερευνήσει εάν είναι δυνατή η ανίχνευση ιστότοπων ηλεκτρονικού ψαρέματος δια μέσου οπτικοποίησης του πηγαίου κώδικα HTML, στη βάση τριών καμπύλων οπτικοποίησης σε συνάρτηση, τη χρήση CNN δικτύων και CNN-RNN, καθώς και την αξιολόγηση αυτών με βάση το ποσοστό ακριβείας επικύρωσης. Η εργασία απαρτίζεται από πέντε κεφάλαια. Στο πρώτο κεφάλαιο γίνεται περιληπτική παρουσίαση της βιβλιογραφικής ανασκόπησης σε σχέση με το αντικείμενο της έρευνας, γίνεται ένας σύντομος συμπερασματικός σχολιασμός των ερευνών και ακολούθως τονίζεται η συμβολή της παρούσας μεταπτυχιακής διατριβής στο αναφερθέν αντικείμενο της έρευνας. Στο δεύτερο κεφάλαιο παρουσιάζεται σύντομη ιστορική αναδρομή του ηλεκτρονικού ψαρέματος, η γενική μεθοδολογία επίθεσης και η έκταση που έχει πάρει τα τελευταία χρόνια. Στο τρίτο κεφάλαιο περιγράφονται οι τεχνολογίες και τα εργαλεία που χρησιμοποιήθηκαν για την υλοποίηση του έργου. Στο τέταρτο κεφάλαιο περιγράφεται ο πειραματικός σχεδιασμός ο οποίος αποτελείται από έξι στάδια. Το πρώτο στάδιο αφορά τη συλλογή URL συνδέσμων και την εξαγωγή εικόνων(οπτικοποίησης)του πηγαίου κώδικα HTML με τη χρήση κατάλληλου εργαλείου με στόχο τη δημιουργία dataset. Ακολούθως το δεύτερο, τρίτο, τέταρτο και πέμπτο στάδιο αφορά την εκπαίδευση των νευρωνικών δικτύων MobileNet, MobileNet-RNN, Xception-RNN και Custom-CNN, εν συνεχεία τη δοκιμή αυτών για την κατηγοριοποίηση των εικόνων με στόχο την απάντηση του κατά πόσο ο ιστότοπος αποτελεί ιστότοπο ηλεκτρονικού ψαρέματος ή όχι. Στο έκτο στάδιο παρουσιάζονται τα αποτελέσματα εκπαίδευσης και δοκιμών για κάθε είδος καμπύλης και μοντέλου και γίνεται εξαγωγή συμπερασμάτων. Ακολούθως στο έκτο και τελευταίο κεφάλαιο εξάγονται τελικά συμπεράσματα, παρατηρήσεις καθώς γίνονται προτάσεις οι οποίες πιθανόν να βοηθήσουν στη μελλοντική εξελικτική πορεία της έρευνας στο παρόν αντικείμενο.