Αλγόριθμοι ομαδοποίησης στην ανάλυση δεδομένων

Στα πλαίσια αυτής της διπλωματικής εργασίας, εξετάσαμε αλγόριθμους ομαδοποίησης, η οποίοι είναι ο k-means, ο k-medoids και ο expectation maximization. Η υλοποίηση των αλγορίθμων έγινε με το πρόγραμμα rapidminer, το οποίο είναι ένα λογισμικό ανοιχτού κώδικα που χρησιμοποιείται για την εξόρυξη δε...

Full description

Saved in:
Bibliographic Details
Main Author: Μιράκα, Ερβίσα
Other Authors: Αμπαζής, Νικόλαος
Language:el_GR
Published: 2020
Subjects:
Online Access:http://hdl.handle.net/11610/20492
Tags: Add Tag
No Tags, Be the first to tag this record!
_version_ 1828461738703454208
author Μιράκα, Ερβίσα
author2 Αμπαζής, Νικόλαος
author_facet Αμπαζής, Νικόλαος
Μιράκα, Ερβίσα
author_sort Μιράκα, Ερβίσα
collection DSpace
description Στα πλαίσια αυτής της διπλωματικής εργασίας, εξετάσαμε αλγόριθμους ομαδοποίησης, η οποίοι είναι ο k-means, ο k-medoids και ο expectation maximization. Η υλοποίηση των αλγορίθμων έγινε με το πρόγραμμα rapidminer, το οποίο είναι ένα λογισμικό ανοιχτού κώδικα που χρησιμοποιείται για την εξόρυξη δεδομένων και κειμένου. Μια από τις κύριες λειτουργίες του αφορά στην ομαδοποίηση, που αποτελεί το επίκεντρο ενδιαφέροντος στην εργασία μας. Εξετάσαμε τον τρόπο εισαγωγής δεδομένων, την λειτουργικότητα και πως εκτελούνται οι διεργασίες στον χώρο εργασίας. Τα αποτελέσματα των αλγορίθμων αξιολογήθηκαν με την μετρική της ακρίβειας. Αρχικά χρησιμοποιήσαμε το παράδειγμα iris dataset, για μια πρώτη αξιολόγηση των αποτελεσμάτων των τριών αλγορίθμων. Στο πειραματικό μέρος, πραγματοποιήθηκαν δέκα εκτελέσεις των τριών αλγορίθμων ομαδοποίησης και τα αποτελέσματα είναι η ακρίβεια και η ανάκληση κλάσης, που οφείλουν να μεγιστοποιούνται. Με βάση τους πειραματισμούς αυτούς για το Iris, ο βέλτιστος αλγόριθμος είναι ο k-means με ακρίβεια 94.47%.Στη συνέχεια χρησιμοποιήθηκαν οι δυο βέλτιστοι αλγόριθμοι, που βρήκαμε από το παράδειγμα iris στο πρόβλημα mnist, προστέθηκε η μέθοδος principal components (pca), ώστε να βρούμε και να χρησιμοποιήσουμε τα σημαντικά χαρακτηριστικά του προβλήματος για ομαδοποίηση και βρίσκουμε ως αποτέλεσμα πως ο k-means με 40 components φέρνει τη βέλτιστη ακρίβεια.
id oai:hellanicus.lib.aegean.gr:11610-20492
institution Hellanicus
language el_GR
publishDate 2020
record_format dspace
spelling oai:hellanicus.lib.aegean.gr:11610-204922020-04-27T08:45:21Z Αλγόριθμοι ομαδοποίησης στην ανάλυση δεδομένων Μιράκα, Ερβίσα Αμπαζής, Νικόλαος αλγόριθμοι ομαδοποίηση δεδομένα algorithms dataset clustering bioinformatics (URL: http://lod.nal.usda.gov/17402) Cluster theory (Nuclear physics) (URL: http://id.loc.gov/authorities/subjects/sh85027256) algorithms (URL: http://lod.nal.usda.gov/6368) Στα πλαίσια αυτής της διπλωματικής εργασίας, εξετάσαμε αλγόριθμους ομαδοποίησης, η οποίοι είναι ο k-means, ο k-medoids και ο expectation maximization. Η υλοποίηση των αλγορίθμων έγινε με το πρόγραμμα rapidminer, το οποίο είναι ένα λογισμικό ανοιχτού κώδικα που χρησιμοποιείται για την εξόρυξη δεδομένων και κειμένου. Μια από τις κύριες λειτουργίες του αφορά στην ομαδοποίηση, που αποτελεί το επίκεντρο ενδιαφέροντος στην εργασία μας. Εξετάσαμε τον τρόπο εισαγωγής δεδομένων, την λειτουργικότητα και πως εκτελούνται οι διεργασίες στον χώρο εργασίας. Τα αποτελέσματα των αλγορίθμων αξιολογήθηκαν με την μετρική της ακρίβειας. Αρχικά χρησιμοποιήσαμε το παράδειγμα iris dataset, για μια πρώτη αξιολόγηση των αποτελεσμάτων των τριών αλγορίθμων. Στο πειραματικό μέρος, πραγματοποιήθηκαν δέκα εκτελέσεις των τριών αλγορίθμων ομαδοποίησης και τα αποτελέσματα είναι η ακρίβεια και η ανάκληση κλάσης, που οφείλουν να μεγιστοποιούνται. Με βάση τους πειραματισμούς αυτούς για το Iris, ο βέλτιστος αλγόριθμος είναι ο k-means με ακρίβεια 94.47%.Στη συνέχεια χρησιμοποιήθηκαν οι δυο βέλτιστοι αλγόριθμοι, που βρήκαμε από το παράδειγμα iris στο πρόβλημα mnist, προστέθηκε η μέθοδος principal components (pca), ώστε να βρούμε και να χρησιμοποιήσουμε τα σημαντικά χαρακτηριστικά του προβλήματος για ομαδοποίηση και βρίσκουμε ως αποτέλεσμα πως ο k-means με 40 components φέρνει τη βέλτιστη ακρίβεια. 2020-04-22T06:51:34Z 2020-04-22T06:51:34Z 2017 http://hdl.handle.net/11610/20492 el_GR CC0 1.0 Παγκόσμια Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές http://creativecommons.org/licenses/by-nc-nd/4.0/ 75 σ. application/pdf Μυτιλήνη
spellingShingle αλγόριθμοι
ομαδοποίηση
δεδομένα
algorithms
dataset
clustering
bioinformatics (URL: http://lod.nal.usda.gov/17402)
Cluster theory (Nuclear physics) (URL: http://id.loc.gov/authorities/subjects/sh85027256)
algorithms (URL: http://lod.nal.usda.gov/6368)
Μιράκα, Ερβίσα
Αλγόριθμοι ομαδοποίησης στην ανάλυση δεδομένων
title Αλγόριθμοι ομαδοποίησης στην ανάλυση δεδομένων
title_full Αλγόριθμοι ομαδοποίησης στην ανάλυση δεδομένων
title_fullStr Αλγόριθμοι ομαδοποίησης στην ανάλυση δεδομένων
title_full_unstemmed Αλγόριθμοι ομαδοποίησης στην ανάλυση δεδομένων
title_short Αλγόριθμοι ομαδοποίησης στην ανάλυση δεδομένων
title_sort αλγόριθμοι ομαδοποίησης στην ανάλυση δεδομένων
topic αλγόριθμοι
ομαδοποίηση
δεδομένα
algorithms
dataset
clustering
bioinformatics (URL: http://lod.nal.usda.gov/17402)
Cluster theory (Nuclear physics) (URL: http://id.loc.gov/authorities/subjects/sh85027256)
algorithms (URL: http://lod.nal.usda.gov/6368)
url http://hdl.handle.net/11610/20492
work_keys_str_mv AT mirakaerbisa algorithmoiomadopoiēsēsstēnanalysēdedomenōn