Μελέτη ανίχνευσης δημιουργίας και αντιμετώπισης των Hoax Email

Παπαπολύζος, Νικόλαος

dc.contributor.advisor	Σκλάβος, Νικόλαος
dc.contributor.author	Παπαπολύζος, Νικόλαος
dc.contributor.other	Papapolyzos, Nicolaos
dc.coverage.spatial	Κύπρος	el_GR
dc.date.accessioned	2020-02-06T07:52:00Z
dc.date.available	2020-02-06T07:52:00Z
dc.date.copyright	2020-02-05
dc.date.issued	2019-11
dc.identifier.other	ΑΥΔ/2019/00045	el_GR
dc.identifier.uri	http://hdl.handle.net/11128/4393
dc.description	Περιέχει βιβλιογραφικές παραπομπές.	el_GR
dc.description.abstract	Τα Hoax Emails είναι μηνύματα απάτης ηλεκτρονικού ταχυδρομείου που αποστέλλονται από εγκληματίες του κυβερνοχώρου με σκοπό να εξαπατήσουν ανυποψίαστους χρήστες. Χρήστες του διαδικτύου που έχουν γίνει θύματα από επιθέσεις των hoax email , μπορεί να αποκαλύψουν ευαίσθητα δεδομένα τους , όπου αυτό μπορεί να προκαλέσει υποκλοπή προσωπικών δεδομένων , διαδικτυακό εκβιασμό ή ακόμα και υποκλοπή μεγάλων χρηματικών ποσών. Με εκτιμώμενη ζημία 3,86 εκατομμυρίων δολαρίων για το έτος 2019 τα ηλεκτρονικά μηνύματα hoax αποτελούν σημαντική απειλή για το τοπίο της ασφάλειας στον κυβερνοχώρο (Retruster LTD, 2019). Για να αντιμετωπιστεί το πρόβλημα, οι ερευνητές και οι εμπειρογνώμονες στον τομέα της ασφάλειας στον κυβερνοχώρο προσπαθούν να δημιουργήσουν αυτοματοποιημένα συστήματα φιλτραρίσματος προκειμένου να ανιχνεύσουν και να αφαιρέσουν τα μηνύματα ηλεκτρονικού ταχυδρομείου πριν φτάσουν στα θύματά τους. Ως απάντηση, οι κυβερνοεγκληματίες χρησιμοποιούν μια ποικιλία εξελιγμένων μεθόδων και τεχνικών ώστε να κάνουν τα ηλεκτρονικά τους μηνύματα εξαπάτησης , να διακρίνονται ως νόμιμα μηνύματα ιστού. Κατά συνέπεια, τα εξαιρετικά πειστικά ηλεκτρονικά μηνύματα μπορούν να παρακάμψουν τα υπάρχοντα συστήματα φιλτραρίσματος, στοχεύοντας χρήστες του διαδικτύου με καταστροφικές συνέπειες. Η αποτελεσματική ανίχνευση μηνυμάτων ηλεκτρονικού ταχυδρομείου είναι ένα ανεπίλυτο πρόβλημα μεγάλης σημασίας και το ερευνητικό ερώτημα που τίθεται είναι εάν μπορούμε να δημιουργήσουμε έναν αλγόριθμο εντοπισμού των hoax email. Συνεπώς η μεταπτυχιακή διατριβή εστιάζει στην ανίχνευση και αντιμετώπιση των hoax email, με χρήση αλγορίθμου αυτόματου εντοπισμού σύμφωνα με τα λεκτικά χαρακτηριστικά. Ο τρόπος της λειτουργίας του αλγορίθμου βασίζεται στον εντοπισμό και στην αναγνώριση , των υψηλής συχνότητας εμφανιζόμενων λέξεων απο hoax email. Για την λειτουργία του αλγορίθμου χρησιμοποιήθηκαν απο το διαδίκτυο, δύο λίστες λέξεων. H πρώτη λίστα περιείχε hoax λέξεις (Badwords.txt) ενώ η δεύτερη stopwords, δηλαδή απλές λέξεις (Whitelist.txt). Επίσης χρησιμοποιήθηκαν απο το διαδίκτυο τρία e-mail Dataset, εκ των οποίων το ένα απο αυτά περιελάμβανε clean emails (Clean.txt) ενώ τα άλλα 2 (Fraud1.txt & Fraud2.txt) hoax emails. Ο αλγόριθμος δημιουργεί μία λίστα DirtyWords, η οποία εντοπίζει ύποπτες λέξεις “hoax” στα παραπάνω Dataset της οποίας τα αποτελέσματα συγκρίνονται με αυτά της λίστας Badword ώστε να ελεγχθεί η απόδοση της DirtyWords. Η υλοποίηση του αλγορίθμου πραγματοποιήθηκε σε περιβάλλον προσομοίωσης με χρήση γλώσσας προγραμματισμού Python3.7. Για την αξιολόγηση του συστήματος, πραγματοποιήθηκε σύγκριση, χρησιμοποιώντας τα δεδομένα που προκύπτουν απο τη λίστα Badwords με τα δεδομένα που προκύπτουν απο την λίστα του δημιουργηθέντος συστήματος DirtyWords, στην οποία περιέχονται συχνά εμφανιζόμενες λέξεις απο hoax email. Τα αποτελέσματα των πειραμάτων με τη μέθοδο του αλγορίθμου υποδεικνύουν λιγότερα false negatives με περισσότερα true positives, καθώς το σύστημα που κατασκευάστηκε DirtyWords έχει κατά μέσο όρο 33% υψηλότερο ποσοστό ακρίβειας, στον εντοπισμό ενός Hoax email, απο ότι της λίστας Badwords που χρησιμοποιήθηκε απο το διαδίκτυο για τους ελέγχους. Αυτό σημαίνει ότι για ένα Hoax email που θα εισέλθει στο σύστημα, η πιθανότητα να μην αναγνωριστεί ως “hoax” είναι μικρότερη αντί της Badwords λίστας. Αντίστοιχα, όσο αφορά τον εντοπισμό ενός Clean email, το σύστημα παρουσίασε 1,2% μικρότερo ποσοστό λάθους σε σχέση με την λίστα Badword. Αξίζει να σημειωθεί πως αν και οι δύο λίστες είναι αρκετά επαρκείς στον εντοπισμό των clean emails η λίστα του αλγορίθμου DirtyWords προσεγγίζει με μικρότερο ποσοστό λάθους τον εντοπισμό των clean emails αντί της λίστας Badwords, καθώς έχουμε λιγότερα false negatives. Η πιθανότητα να αναγνωρίσει η DirtyWords ένα clean email ως hoax, είναι μικρότερη αντί της λίστας Badwords. Βάση των ευρημάτων, μπορούμε να αποφανθούμε στο συμπέρασμα ότι το σύστημα το οποίο κατασκευάστηκε μπορεί να χρησιμοποιηθεί επιτυχώς, για την επίλυση του προβλήματος. Η αποτελεσματική ανίχνευση μηνυμάτων ηλεκτρονικού ταχυδρομείου επηρεάζει το κόστος εξασφάλισης και υλοποίησης ενός ευρύτερου συστήματος ηλεκτρονικής ασφάλειας σε έναν οργανισμό και είναι καθοριστικής σημασίας (N. Sklavos 2006:15, P. Souras 2006:15). Αυτό συνεπάγεται ότι υπάρχουν συστήματα ηλεκτρονικής ασφάλειας ενός οργανισμού που δεν υποστηρίζουν παρόμοια τεχνική, λόγω των αυξημένων οικονομικών πόρων που απαιτούνται, από την προστασία που παρέχεται σε επίπεδο εφαρμογής. Από την άλλη παρόμοια τεχνική θα μπορούσε να είχε ευρεία χρήση σε σύγχρονες εφαρμογές και τεχνολογίες , όπως σε ασύρματες τεχνολογίες 4G (N. Sklavos 2013:58, A. Bikos 2013:58) ή στο IOT (Internet of Things) όπου υπάρχουν πολλά κενά ασφαλείας και ευπάθειες. (S. Zeadally 2019:6, A.K. Das 2019:6, N. Sklavos 2019:6) Μελλοντικά το παρόν σύστημα μπορεί να χρησιμοποιηθεί απο την ακαδημαϊκή κοινότητα ώστε οι επιστήμονες να αναπτύξουν πρακτικά, αποδοτικότερους αλγορίθμους δοκιμάζοντας διάφορους μεθόδους και τεχνικές οι οποίες θα συμβάλλουν στην αποτελεσματικότερη απόδοση του αλγορίθμου.	el_GR
dc.format.extent	71 σ. 30 εκ.	el_GR
dc.language	gr	el_GR
dc.language.iso	gr	el_GR
dc.publisher	Ανοικτό Πανεπιστήμιο Κύπρου	el_GR
dc.rights	info:eu-repo/semantics/closedAccess	el_GR
dc.subject	Hoax Emails	el_GR
dc.title	Μελέτη ανίχνευσης δημιουργίας και αντιμετώπισης των Hoax Email	el_GR
dc.type	Μεταπτυχιακή Διατριβή	el_GR
dc.description.translatedabstract	Hoax Emails are fraudulent messages which are sent by cybercriminals with the intent to deceive unsuspecting users. Users who are victimized by hoax emails may be tricked into revealing sensitive data with may result in identity theft, cyber extortion or even big financial frauds. With an estimated damage of 3.86 million US dollars for the year 2019, Hoax emails present a significant threat to the cyber security landscape (Retruster Ltd, 2019). To address the problem, researchers and cyber security experts strive to create automated filleting systems in order to detect and remove hoax emails before they reach their victims. As a response, cybercriminals utilize a variety of sophisticated methods and techniques in order to make their hoax emails indistinguishable from legitimate web messages. Consequently, highly convincing hoax emails can still bypass existing filtering systems and target users with catastrophic consequences. The effective detection of hoax emails is an unresolved problem of great significance and the research question that arises is whether we can build a hoax email tracking algorithm. Therefore, the master's thesis focuses on the detection and handling of hoax emails, using an automatic algorithm based on verbal features. The way the algorithm works is based on detection and identification of words which are frequently being used in hoax emails. Two word lists were used for the operation the algorithm. The first list contains “hoax” words (Badwords.txt) and the second "stopwords" clean words (Whitelist.txt). Additionally, three Dataset of e-mails were used, one of which included clean emails (Clean.txt) and the other 2 (Fraud1.txt & Fraud2.txt) hoax emails. The algorithm generates a DirtyWords list, which detects suspicious "hoax" words in the above Datasets whose results are compared with the Badwords list to check the performance of DirtyWords. The algorithm was implemented in a simulation environment using Python3.7 programming language. A comparison was made to evaluate the system, using the data from the Badwords list with the data from the created DirtyWords system, which contains frequently used words from hoax email. The results of the experiments of the algorithm show less false negatives with more true positives, as the system with was developed with the use of DirtyWords list has an average of 33% higher accuracy in detecting a Hoax email when compared to the Badwords list which is currently being used for internet for checks. This means that for a Hoax email which is inserted into the system, the probability of not being recognized as a "hoax" is lower in comparison to the Badwords list. Based on the findings, we can conclude that the system that was built can successfully be used to solve the problem. The effective detection of hoax emails, also affects the cost of securing and implementing a wider cybersecurity system in an organization and is crucial (N. Sklavos 2006: 15; P. Souras 2006: 15). This implies that there are cyber security systems in an organization that do not support such a technique, due to the increased financial resources required, from the protection provided by the application layer. On the other hand, such a technique could be widely used in modern applications and technologies, such as in 4G wireless technologies (N. Sklavos 2013: 58, A. Bikos 2013: 58), or in IOT (Internet of Things) where there are many security gaps and vulnerabilities. (S. Zeadally 2019: 6, AK Das 2019: 6, N. Sklavos 2019: 6) In the future, this system can be used by the academic community to allow scientists to develop practical, efficient algorithms by testing various methods and techniques that will contribute to the more efficient performance of the algorithm.	el_GR
dc.format.type	pdf	el_GR

Files in this item

Name:: ΑΥΔ-2019-00045.pdf
Size:: 977.1Kb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Ασφάλεια Υπολογιστών και Δικτύων (ΕΛΛ) / Computer and Network Security (in Greek)

Show simple item record