Τεχνικές ανωνυμοποίησης προσωπικών δεδομένων
Abstract
Η συλλογή δεδομένων μεγάλου πλήθους για την αξιοποίησή τους και για
ποικίλους επιστημονικούς σκοπούς αποτελεί τα τελευταία χρόνια ένα
πολύτιμο εργαλείο για την εξόρυξη γνώσης. Ωστόσο, από τη δημοσιοποίηση
ή απλά διαβίβαση μεγάλου όγκου δεδομένων τίθενται θέματα παραβίασης
των προσωπικών δεδομένων των ατόμων που τα δεδομένα αφορούν.
Υπάρχει συχνά η λανθασμένη εντύπωση ότι απαλείφοντας τα στοιχεία
ταυτοποίησης των ατόμων από τις λίστες αυτές καθίστανται ανώνυμες –
κάτι η πράξη έχει καταδείξει ότι δεν ισχύει όπου σημαντικές πληροφορίες
για κάποια άτομα έχουν σε διάφορες περιπτώσεις διαρρεύσει λόγω μη
επαρκούς ανωνυμοποίησης. Ακριβώς για αυτούς τους λόγους έχουν
προταθεί διάφορες τεχνικές για την ανωνυμοποίηση λιστών με προσωπικά
δεδομένα – κάθε μια από τις οποίες με τα δικά της πλεονεκτήματα και
μειονεκτήματα.
Στην παρούσα διατριβή μελετώνται και αναλύονται οι γνωστές τεχνικές
ανωνυμοποίησης: γίνεται εκτενής περιγραφή του είδους των επιθέσεων που
μπορεί να πραγματοποιήσει κανείς προκειμένου να άρει μια ανωνυμοποίηση,
καθώς επίσης και με ποιον τρόπο η κάθε τεχνική αντιμετωπίζει ή όχι την
κάθε επίθεση. Παράλληλα, διερευνάται και η απώλεια χρήσιμης
πληροφορίας που προκύπτει από κάθε τεχνική, αφού κατά κανόνα
επιθυμούμε τη βέλτιστη ανωνυμοποίηση αλλά με την ελάχιστη δυνατή
απώλεια πληροφορίας. Προς περαιτέρω διερεύνηση των περιορισμών που
υπάρχουν στις τεχνικές ανωνυμοποίησης, η έρευνά μας εστιάζει και σε ένα
ρεαλιστικό παράδειγμα, εφαρμόζοντας τις τεχνικές αυτές σε μία σύγχρονη
δημόσια προσβάσιμη λίστα προσωπικών δεδομένων. Καταδεικνύουμε ότι
κρίσιμο ρόλο για την αποτελεσματικότητα της ανωνυμοποίησης έχει η
κατανομή των τιμών που λαμβάνει το ευαίσθητο πεδίο – δηλαδή το πεδίο το
οποίο χρήζει προστασίας. Η πρακτική αυτή εφαρμογή καταδεικνύει ότι όσο
πιο ανομοιογενής είναι η κατανομή των τιμών του ευαίσθητου πεδίου, τόσο
πιο δύσκολη είναι η επίτευξη επαρκούς ανωνυμοποίησης.