Αλγόριθμοι ομαδοποίησης στην ανάλυση δεδομένων
Στα πλαίσια αυτής της διπλωματικής εργασίας, εξετάσαμε αλγόριθμους ομαδοποίησης, η οποίοι είναι ο k-means, ο k-medoids και ο expectation maximization. Η υλοποίηση των αλγορίθμων έγινε με το πρόγραμμα rapidminer, το οποίο είναι ένα λογισμικό ανοιχτού κώδικα που χρησιμοποιείται για την εξόρυξη δε...
Αποθηκεύτηκε σε:
| Κύριος συγγραφέας: | |
|---|---|
| Άλλοι συγγραφείς: | |
| Γλώσσα: | el_GR |
| Δημοσίευση: |
2020
|
| Θέματα: | |
| Διαθέσιμο Online: | http://hdl.handle.net/11610/20492 |
| Ετικέτες: |
Προσθήκη ετικέτας
Δεν υπάρχουν, Καταχωρήστε ετικέτα πρώτοι!
|
| Περίληψη: | Στα πλαίσια αυτής της διπλωματικής εργασίας, εξετάσαμε αλγόριθμους ομαδοποίησης, η οποίοι είναι ο k-means, ο k-medoids και ο expectation maximization.
Η υλοποίηση των αλγορίθμων έγινε με το πρόγραμμα rapidminer, το οποίο είναι ένα λογισμικό ανοιχτού κώδικα που χρησιμοποιείται για την εξόρυξη δεδομένων και κειμένου. Μια από τις κύριες λειτουργίες του αφορά στην ομαδοποίηση, που αποτελεί το επίκεντρο ενδιαφέροντος στην εργασία μας. Εξετάσαμε τον τρόπο εισαγωγής δεδομένων, την λειτουργικότητα και πως εκτελούνται οι διεργασίες στον χώρο εργασίας. Τα αποτελέσματα των αλγορίθμων αξιολογήθηκαν με την μετρική της ακρίβειας.
Αρχικά χρησιμοποιήσαμε το παράδειγμα iris dataset, για μια πρώτη αξιολόγηση των αποτελεσμάτων των τριών αλγορίθμων. Στο πειραματικό μέρος, πραγματοποιήθηκαν δέκα εκτελέσεις των τριών αλγορίθμων ομαδοποίησης και τα αποτελέσματα είναι η ακρίβεια και η ανάκληση κλάσης, που οφείλουν να μεγιστοποιούνται. Με βάση τους πειραματισμούς αυτούς για το Iris, ο βέλτιστος αλγόριθμος είναι ο k-means με ακρίβεια 94.47%.Στη συνέχεια χρησιμοποιήθηκαν οι δυο βέλτιστοι αλγόριθμοι, που βρήκαμε από το παράδειγμα iris στο πρόβλημα mnist, προστέθηκε η μέθοδος principal components (pca), ώστε να βρούμε και να χρησιμοποιήσουμε τα σημαντικά χαρακτηριστικά του προβλήματος για ομαδοποίηση και βρίσκουμε ως αποτέλεσμα πως ο k-means με 40 components φέρνει τη βέλτιστη ακρίβεια. |
|---|