Σύγκριση απόδοσης μεθόδων μέτρησης εντροπίας πληροφορίας σε πρότυπα προβλήματα απόφασης
Η συγκεκριμένη εργασία παρουσιάζει τους κυριότερους ορισμούς της εντροπίας και εστιάζει στην ανάλυση των βασικότερων μέτρων εντροπίας καθώς και των πρακτικών χρήσεών τους. Στη συνέχεια, επιλέχθηκαν κάποιοι ορισμοί και μέτρα, τα οποία συγκρίθηκαν μέσα από μια συγκεκριμένη επαναληπτική πειραματική δια...
Saved in:
| Main Author: | |
|---|---|
| Other Authors: | |
| Language: | el_GR |
| Published: |
2024
|
| Subjects: | |
| Online Access: | http://hdl.handle.net/11610/26345 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| _version_ | 1828460853092941824 |
|---|---|
| author | Λάσκαρης, Γεώργιος |
| author2 | Δούνιας, Γεώργιος |
| author_sort | Λάσκαρης, Γεώργιος |
| collection | DSpace |
| description | Η συγκεκριμένη εργασία παρουσιάζει τους κυριότερους ορισμούς της εντροπίας και εστιάζει στην ανάλυση των βασικότερων μέτρων εντροπίας καθώς και των πρακτικών χρήσεών τους. Στη συνέχεια, επιλέχθηκαν κάποιοι ορισμοί και μέτρα, τα οποία συγκρίθηκαν μέσα από μια συγκεκριμένη επαναληπτική πειραματική διαδικασία, σε μια σειρά πρότυπων προβλημάτων της βιβλιογραφίας από τον χώρο της λήψης αποφάσεων. Με σκοπό την εξαγωγή συμπερασμάτων για τη χρήση του καταλληλότερου ορισμού ή μέτρου της εντροπίας ανά τύπο και χαρακτηριστικά προβλήματος, πραγματοποιήθηκαν συγκρίσεις απόδοσης μεταξύ των μεθόδων.
Οι εργασίες θα εκπονηθούν στο εργαστήριο ΔΕΛΑΠ με τη συνεπίβλεψη των καθηγητών Δούνια - Βασιλάκη που μελετούν τα συγκεκριμένα θέματα καθώς και τη συμμετοχή του κ. Κούτρα στην τριμελή επιτροπή.
Το θέμα της παρούσας διπλωματικής εργασίας αφορά τη συγκριτική ανάλυση μεθόδων μέτρησης εντροπίας πληροφορίας και αλγορίθμων ταξινόμησης σε ένα σύνολο πραγματικών δεδομένων. Συγκεκριμένα, έγινε προσπάθεια να αντιμετωπιστεί το πρόβλημα της διάγνωσης του καρκίνου του μαστού, από δεδομένα που συνέλλεξε o Dr. William H. Wolberg στο Πανεπιστήμιο του Wisconsin. με στόχο να μπορέσει ο εξεταζόμενος αλγόριθμος ταξινόμησης να προβλέψει σωστά μία νέα παρατήρηση ως φυσιολογική ή μη. Μελετήθηκαν διάφορες μέθοδοι επιλογής χαρακτηριστικών προκειμένου να μειωθεί η πολυπλοκότητα και ο τυχόν θόρυβος στα δεδομένα του προβλήματος και δόθηκε έμφαση στην απόδοση-αποτελεσματικότητα των επιλεγμένων μεθόδων ταξινόμησης. Για την ανάλυση των δεδομένων και την παραγωγή των αποτελεσμάτων, χρησιμοποιήθηκε το πρόγραμμα Jypiter Notebook (anaconda3) το οποίο διαθέτει μία μεγάλη βιβλιοθήκη αλγόριθμων και παρέχει ένα εύχρηστο περιβάλλον στο χρήστη. Σε αυτή τη μελέτη, χρησιμοποιήθηκε μία βάση δεδομένων η οποία περιέχει 613 παρατηρήσεις και 10 χαρακτηριστικά τα οποία περιγράφουν την κάθε περίπτωση και έγινε σύγκριση της προβλεπτικής ικανότητας των αλγόριθμων ταξινόμησης σε ένα πρόβλημα δύο κλάσεων. Η εργασία χωρίζεται σε οκτώ (8) κεφάλαια. Στο πρώτο κεφάλαιο γίνεται μία εισαγωγή και γενική αναφορά στη θεωρία πληροφορίας. Στο δεύτερο κεφάλαιο γίνεται μία εκτενής αναφορά στο μέτρο ποσότητας πληροφορίας, την εντροπία. Αρχικά, προσδιορίζονται οι κυριότερες αρχές και ιδιότητες που τη χαρακτηρίζουν και έπειτα αναλύονται τα βασικά είδη εντροπίας προκειμένου στα κεφάλαια που ακολουθούν να γίνει κατανοητή η χρησιμότητά τους σε βασικά προβλήματα της εποχής μας. Στο τρίτο κεφάλαιο γίνεται αναφορά στα προβλήματα απόφασης και η εφαρμογή που έχει η εντροπία πάνω σε αυτά. Στο τέταρτο κεφάλαιο παρουσιάζεται το πρόβλημα της ταξινόμησης και πώς αυτό συνδέεται άμεσα με τη διαδικασία της επιλογής χαρακτηριστικών και γίνεται περιγραφή βασικών αλγόριθμων ταξινόμησης. Το πέμπτο κεφάλαιο περιλαμβάνει την πειραματική ανάλυση καθώς και όλα τα αποτελέσματα που προέκυψαν από το Jypiter Notebook. Στο έκτο κεφάλαιο, παρουσιάζονται τα αποτελέσματα των μεθόδων εντροπίας mutual information, Shannon Entropy και Renyi Entropy που εφαρμόστηκαν πάνω στο dataset Wisconsin breast cancer. Στο έβδομο κεφάλαιο παρουσιάζονται τα αποτελέσματα των αλγορίθμων ταξινόμησης στο αρχικό dataset καθώς επίσης και τα υποσύνολα που δημιουργήθηκαν έπειτα από την εφαρμογή συγκεκριμένων μεθόδων εντροπίας. Στο τελευταίο κεφάλαιο γίνεται αναφορά στον τρόπο εργασίας και τη μεθοδολογία που ακολουθήθηκε καθ’ όλη τη διάρκεια της έρευνας και παρατίθενται ορισμένα βασικά συμπεράσματα.
Εφαρμόστηκαν διάφοροι συνδυασμοί μεθόδων επιλογής χαρακτηριστικών και αλγόριθμων ταξινόμησης με καλά αποτελέσματα όπως προέκυψε μέσα από την έρευνα. Παρατηρήσαμε ότι η επιλογή χαρακτηριστικών δεν βελτίωσε την ακρίβεια των ταξινομητών. Εφαρμόζοντας πολλαπλή επικύρωση ten fold cross validation και μελετώντας το μέτρο Recall παρατηρείται πως η επιλογή χαρακτηριστικών, με τη μέθοδο Shannon Entropy, βελτίωσε την απόδοση και των δύο ταξινομητών (95.8%) ενώ η μέθοδος Renyi Entropy κράτησε την απόδοση τους στα ίδια επίπεδα (95.4%). |
| id | oai:hellanicus.lib.aegean.gr:11610-26345 |
| institution | Hellanicus |
| language | el_GR |
| publishDate | 2024 |
| record_format | dspace |
| title | Σύγκριση απόδοσης μεθόδων μέτρησης εντροπίας πληροφορίας σε πρότυπα προβλήματα απόφασης |
| topic | εντροπία θεωρία πληροφορίας επιλογή χαρακτηριστικών entropy feature selection information theory Entropy Thermodynamics Mechanics Information theory Communication Cybernetics |
| url | http://hdl.handle.net/11610/26345 |
| work_keys_str_mv | AT laskarēsgeōrgios synkrisēapodosēsmethodōnmetrēsēsentropiasplērophoriasseprotypaproblēmataapophasēs |