Μελέτη ανίχνευσης δημιουργίας και αντιμετώπισης των Hoax Email
Abstract
Τα Hoax Emails είναι μηνύματα απάτης ηλεκτρονικού ταχυδρομείου που αποστέλλονται από εγκληματίες του κυβερνοχώρου με σκοπό να εξαπατήσουν ανυποψίαστους χρήστες. Χρήστες του διαδικτύου που έχουν γίνει θύματα από επιθέσεις των hoax email , μπορεί να αποκαλύψουν ευαίσθητα δεδομένα τους , όπου αυτό μπορεί να προκαλέσει υποκλοπή προσωπικών δεδομένων , διαδικτυακό εκβιασμό ή ακόμα και υποκλοπή μεγάλων χρηματικών ποσών.
Με εκτιμώμενη ζημία 3,86 εκατομμυρίων δολαρίων για το έτος 2019 τα ηλεκτρονικά μηνύματα hoax αποτελούν σημαντική απειλή για το τοπίο της ασφάλειας στον κυβερνοχώρο (Retruster LTD, 2019).
Για να αντιμετωπιστεί το πρόβλημα, οι ερευνητές και οι εμπειρογνώμονες στον τομέα της ασφάλειας στον κυβερνοχώρο προσπαθούν να δημιουργήσουν αυτοματοποιημένα συστήματα φιλτραρίσματος προκειμένου να ανιχνεύσουν και να αφαιρέσουν τα μηνύματα ηλεκτρονικού ταχυδρομείου πριν φτάσουν στα θύματά τους. Ως απάντηση, οι κυβερνοεγκληματίες χρησιμοποιούν μια ποικιλία εξελιγμένων μεθόδων και τεχνικών ώστε να κάνουν τα ηλεκτρονικά τους μηνύματα εξαπάτησης , να διακρίνονται ως νόμιμα μηνύματα ιστού. Κατά συνέπεια, τα εξαιρετικά πειστικά ηλεκτρονικά μηνύματα μπορούν να παρακάμψουν τα υπάρχοντα συστήματα φιλτραρίσματος, στοχεύοντας χρήστες του διαδικτύου με καταστροφικές συνέπειες.
Η αποτελεσματική ανίχνευση μηνυμάτων ηλεκτρονικού ταχυδρομείου είναι ένα ανεπίλυτο πρόβλημα μεγάλης σημασίας και το ερευνητικό ερώτημα που τίθεται είναι εάν μπορούμε να δημιουργήσουμε έναν αλγόριθμο εντοπισμού των hoax email. Συνεπώς η μεταπτυχιακή διατριβή εστιάζει στην ανίχνευση και αντιμετώπιση των hoax email, με χρήση αλγορίθμου αυτόματου εντοπισμού σύμφωνα με τα λεκτικά χαρακτηριστικά. Ο τρόπος της λειτουργίας του αλγορίθμου βασίζεται στον εντοπισμό και στην αναγνώριση , των υψηλής συχνότητας εμφανιζόμενων λέξεων απο hoax email. Για την λειτουργία του αλγορίθμου χρησιμοποιήθηκαν απο το διαδίκτυο, δύο λίστες λέξεων. H πρώτη λίστα περιείχε hoax λέξεις (Badwords.txt) ενώ η δεύτερη stopwords, δηλαδή απλές λέξεις (Whitelist.txt). Επίσης χρησιμοποιήθηκαν απο το διαδίκτυο τρία e-mail Dataset, εκ των οποίων το ένα απο αυτά περιελάμβανε clean emails (Clean.txt) ενώ τα άλλα 2 (Fraud1.txt & Fraud2.txt) hoax emails. Ο αλγόριθμος δημιουργεί μία λίστα DirtyWords, η οποία εντοπίζει ύποπτες λέξεις “hoax” στα παραπάνω Dataset της οποίας τα αποτελέσματα συγκρίνονται με αυτά της λίστας Badword ώστε να ελεγχθεί η απόδοση της DirtyWords. Η υλοποίηση του αλγορίθμου πραγματοποιήθηκε σε περιβάλλον προσομοίωσης με χρήση γλώσσας προγραμματισμού Python3.7.
Για την αξιολόγηση του συστήματος, πραγματοποιήθηκε σύγκριση, χρησιμοποιώντας τα δεδομένα που προκύπτουν απο τη λίστα Badwords με τα δεδομένα που προκύπτουν απο την λίστα του δημιουργηθέντος συστήματος DirtyWords, στην οποία περιέχονται συχνά εμφανιζόμενες λέξεις απο hoax email. Τα αποτελέσματα των πειραμάτων με τη μέθοδο του αλγορίθμου υποδεικνύουν λιγότερα false negatives με περισσότερα true positives, καθώς το σύστημα που κατασκευάστηκε DirtyWords έχει κατά μέσο όρο 33% υψηλότερο ποσοστό ακρίβειας, στον εντοπισμό ενός Hoax email, απο ότι της λίστας Badwords που χρησιμοποιήθηκε απο το διαδίκτυο για τους ελέγχους. Αυτό σημαίνει ότι για ένα Hoax email που θα εισέλθει στο σύστημα, η πιθανότητα να μην αναγνωριστεί ως “hoax” είναι μικρότερη αντί της Badwords λίστας. Αντίστοιχα, όσο αφορά τον εντοπισμό ενός Clean email, το σύστημα παρουσίασε 1,2% μικρότερo ποσοστό λάθους σε σχέση με την λίστα Badword. Αξίζει να σημειωθεί πως αν και οι δύο λίστες είναι αρκετά επαρκείς στον εντοπισμό των clean emails η λίστα του αλγορίθμου DirtyWords προσεγγίζει με μικρότερο ποσοστό λάθους τον εντοπισμό των clean emails αντί της λίστας Badwords, καθώς έχουμε λιγότερα false negatives. Η πιθανότητα να αναγνωρίσει η DirtyWords ένα clean email ως hoax, είναι μικρότερη αντί της λίστας Badwords. Βάση των ευρημάτων, μπορούμε να αποφανθούμε στο συμπέρασμα ότι το σύστημα το οποίο κατασκευάστηκε μπορεί να χρησιμοποιηθεί επιτυχώς, για την επίλυση του προβλήματος.
Η αποτελεσματική ανίχνευση μηνυμάτων ηλεκτρονικού ταχυδρομείου επηρεάζει το κόστος εξασφάλισης και υλοποίησης ενός ευρύτερου συστήματος ηλεκτρονικής ασφάλειας σε έναν οργανισμό και είναι καθοριστικής σημασίας (N. Sklavos 2006:15, P. Souras 2006:15). Αυτό συνεπάγεται ότι υπάρχουν συστήματα ηλεκτρονικής ασφάλειας ενός οργανισμού που δεν υποστηρίζουν παρόμοια τεχνική, λόγω των αυξημένων οικονομικών πόρων που απαιτούνται, από την προστασία που παρέχεται σε επίπεδο εφαρμογής. Από την άλλη παρόμοια τεχνική θα μπορούσε να είχε ευρεία χρήση σε σύγχρονες εφαρμογές και τεχνολογίες , όπως σε ασύρματες τεχνολογίες 4G (N. Sklavos 2013:58, A. Bikos 2013:58) ή στο IOT (Internet of Things) όπου υπάρχουν πολλά κενά ασφαλείας και ευπάθειες. (S. Zeadally 2019:6, A.K. Das 2019:6, N. Sklavos 2019:6) Μελλοντικά το παρόν σύστημα μπορεί να χρησιμοποιηθεί απο την ακαδημαϊκή κοινότητα ώστε οι επιστήμονες να αναπτύξουν πρακτικά, αποδοτικότερους αλγορίθμους δοκιμάζοντας διάφορους μεθόδους και τεχνικές οι οποίες θα συμβάλλουν στην αποτελεσματικότερη απόδοση του αλγορίθμου.