Show simple item record

dc.contributor.advisorΚατάκης, Ιωάννης
dc.contributor.authorΜαρίνου, Βασιλική
dc.contributor.otherMarinou, Vasiliki
dc.coverage.spatialΚύπροςel_GR
dc.date.accessioned2016-04-04
dc.date.accessioned2016-04-05T10:05:23Z
dc.date.available2016-04-05T10:05:23Z
dc.date.copyright2015-09
dc.date.issued2016-04-05
dc.identifier.otherΠΛΗ/2015/00201el_GR
dc.identifier.urihttp://hdl.handle.net/11128/2296
dc.descriptionΠεριέχει βιβλιογραφικές παραπομπές.el_GR
dc.description.abstractΤο διαδίκτυο συγκεντρώνει μεγάλες ποσότητες πληροφοριών, οι οποίες λόγω του όγκου τους πολλές φορές μένουν αναξιοποίητες. Οι τεχνικές εξόρυξης γνώσης μπορούν να αυτοματοποιήσουν τη διαδικασία της ανάκτησης χρήσιμων πληροφοριών από τον ιστό και να συνδυαστούν με συστήματα που μπορούν να αξιοποιήσουν τη γνώση αυτή. Αναδεικνύεται επομένως η επιτακτική ανάγκη σύγκρισης των εργαλείων που θα διευκολύνουν την προσπέλαση και τη διαχείριση της διαθέσιμης πληροφορίας ανάλογα με τις ανάγκες των χρηστών. Αντικείμενο της παρούσας μεταπτυχιακής διατριβής είναι μια σύγκριση σε βάθος των κορυφαίων λογισμικών ανοιχτού κώδικα, σε πολλά επίπεδα όπως ποικιλία αλγορίθμων που υλοποιούνται, ποικιλία εργαλείων προ-επεξεργασίας κειμένων, υπολογιστικοί πόροι που καταλαμβάνουν, παρουσίαση αποτελεσμάτων, κοινότητα χρηστών, ευελιξία επέκτασης, ευχρηστία κ.λ.π., με έμφαση στις διεργασίες αυτόματης ανάλυσης κειμένων όπως κατηγοριοποίηση (classification) και συσταδοποίηση (clustering), στο πεδίο της εξόρυξης κειμένου. Τα υπό εξέταση λογισμικά είναι το R, το Weka, το Rapid Miner και scikit learn (Python). Πιο συγκεκριμένα, αρχικά παρουσιάζεται μια εισαγωγή στην έννοια της εξόρυξης κειμένου και των λογισμικών ανοιχτού κώδικα καθώς εξετάζεται η δομή, η λειτουργικότητα και οι επιμέρους εφαρμογές των υπό εξέταση λογισμικών, αλλά και η άποψη του συγγραφέα αναφορικά με τα κριτήρια ευχρηστίας προκειμένου να δημιουργηθεί μία πρώτη ιδέα ως προς την ποιότητα, τη χρησιμότητα και το περιεχόμενο του καθενός από αυτά. Στη συνέχεια, γίνεται μια αναφορά στους πιο βασικούς αλγορίθμους μηχανικής μάθησης και στις μετρικές αξιολόγησης τους, προκειμένου να πραγματοποιηθεί η συγκριτική μελέτη των πλεονεκτημάτων και των μειονεκτημάτων των υπό εξέταση λογισμικών μέσω των αποτελεσμάτων της πειραματικής ανάλυσης των παραπάνω μεθόδων. Συνοψίζοντας, ο στόχος της παρούσας μεταπτυχιακής διατριβής είναι η πραγματοποίηση μιας συγκριτικής μελέτης των υπό εξέταση λογισμικών, ώστε ο χρήστης δεδομένου ενός προβλήματος εφαρμογής να είναι σε θέση να επιλέξει την βέλτιστη τεχνική (εργαλείο) βάσει των προτεραιοτήτων του.el_GR
dc.format.extentxi, 186 σ. 30 εκ.el_GR
dc.languagegrel_GR
dc.language.isogrel_GR
dc.rightsinfo:eu-repo/semantics/closedAccessel_GR
dc.subjectΕξόρυξη δεδομένωνel_GR
dc.subjectData miningel_GR
dc.titleΣυγκριτική μελέτη εργαλείων μηχανικής μάθησης στην εξόρυξη κειμένωνel_GR
dc.typeΜεταπτυχιακή Διατριβήel_GR
dc.description.translatedabstractInternet brings together large amounts of information, which due to their volume are often left unexploited. The data mining techniques can automate the process of recovering useful information from the web and combine them with systems that can leverage this knowledge. This highlights an urgent need to compare the tools which facilitate the access and management of the available information depending on the user needs. Objective of this master thesis is an in-depth comparison between the leading open source software. The comparisons are multi-leveled and include a variety of implemented algorithms, a variety of pre-processing text tools, computational resources they occupy, results presentation, user community, expansion flexibility, usability, etc. emphasizing on automated analysis processes such as text classification and text clustering in the field of text mining. The software tools under consideration is R, Weka, Rapid Miner and scikit learn (Python). Specifically, an introduction to the concept of text mining and open source software is presented while examining structure, functionality and additional applications of each of the software tools, but also the view of the author regarding the usability criteria in order to provide an overview as to the quality, usefulness and content of each one of them. Subsequently there is a reference on the most basic machine learning algorithms and their test metrics in order to perform a comparative study on the advantages and the disadvantages of the test software through the results of the experimental analysis of the above methods. Summarizing, the goal of this master thesis is a comparative study between the tested software, so that users with an application problem will be able to choose the best technique (tool) based on their priorities.el_GR
dc.format.typepdfel_GR


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record