Καθαρισμός δεδομένων: επισκόπηση και εφαρμογή σε πραγματικά δεδομένα

Η διαδικασία της εύρεσης και της διόρθωσης προβλημάτων στην ανάλυση δεδομένων είναι γνωστή ως καθαρισμός δεδομένων. Μια ουσιαστική, συχνά δαπανηρή και πάντα δύσκολη ευθύνη προκύπτει κατά τη συλλογή και συγχώνευση δεδομένων από διαφορετικές πηγές σε μια αποθήκη δεδομένων: η διασφάλιση καλής ποιότητα...

Πλήρης περιγραφή

Αποθηκεύτηκε σε:
Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριοι συγγραφείς: Τσικάκης, Δημήτριος, Μπαλαμώτη, Αλεξάνδρα
Άλλοι συγγραφείς: Βλάχου, Ακριβή
Γλώσσα:el_GR
Δημοσίευση: 2023
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/11610/25347
Ετικέτες: Προσθήκη ετικέτας
Δεν υπάρχουν, Καταχωρήστε ετικέτα πρώτοι!
_version_ 1828461836347899904
author Τσικάκης, Δημήτριος
Μπαλαμώτη, Αλεξάνδρα
author2 Βλάχου, Ακριβή
author_facet Βλάχου, Ακριβή
Τσικάκης, Δημήτριος
Μπαλαμώτη, Αλεξάνδρα
author_sort Τσικάκης, Δημήτριος
collection DSpace
description Η διαδικασία της εύρεσης και της διόρθωσης προβλημάτων στην ανάλυση δεδομένων είναι γνωστή ως καθαρισμός δεδομένων. Μια ουσιαστική, συχνά δαπανηρή και πάντα δύσκολη ευθύνη προκύπτει κατά τη συλλογή και συγχώνευση δεδομένων από διαφορετικές πηγές σε μια αποθήκη δεδομένων: η διασφάλιση καλής ποιότητας και συνέπειας των δεδομένων. Στην πραγματικότητα, μία από τις μόνιμες δυσκολίες στην ανάλυση δεδομένων είναι η εύρεση και ο καθορισμός των βρώμικων δεδομένων- η αποτυχία αυτή μπορεί να οδηγήσει σε λανθασμένες αναλύσεις και αναξιόπιστες κρίσεις. Το ενδιαφέρον για θέματα καθαρισμού δεδομένων έχει αυξηθεί πρόσφατα τόσο στη βιομηχανία όσο και στην πανεπιστημιακή κοινότητα. Για να κατανοήσουμε καλύτερα τις εξελίξεις σε αυτό το κομμάτι, στο πρώτο μέρος της διπλωματικής παρουσιάζονται διάφορες τεχνικές, μέθοδοι και προσεγγίσεις καθαρισμού δεδομένων. Το δεύτερο μέρος της μελέτης εφαρμόζει τεχνικές καθαρισμού δεδομένων σε τρεις συλλογές δεδομένων που σχετίζονται με τον κλάδο της εστίασης, τις τιμές της εταιρίας Uber και τα μεταχειρισμένα αυτοκίνητα. Αναλύονται διαφορετικά σενάρια που μπορούν να προκύψουν από την ανάλυση συλλογών δεδομένων τα οποία είναι διαθέσιμα δημόσια, αφού πρώτα γίνει καθαρισμός των δεδομένων με Excel και Python. Παρουσιάζονται τα αποτελέσματα της διαδικασίας καθαρισμού των δεδομένων, τα οποία δείχνουν ότι οι τεχνικές καθαρισμού των δεδομένων βελτιώνουν σημαντικά την ποιότητα και την ακρίβεια των συνόλων δεδομένων.
id oai:hellanicus.lib.aegean.gr:11610-25347
institution Hellanicus
language el_GR
publishDate 2023
record_format dspace
spelling oai:hellanicus.lib.aegean.gr:11610-253472023-06-02T11:12:32Z Καθαρισμός δεδομένων: επισκόπηση και εφαρμογή σε πραγματικά δεδομένα Τσικάκης, Δημήτριος Μπαλαμώτη, Αλεξάνδρα Βλάχου, Ακριβή Πληροφοριακά και Επικοινωνιακά Συστήματα ανάλυση δεδομένων συλλογή δεδομένων καθαρισμός δεδομένων data cleaning data analytics data science Electronic data processing -- Quality control Electronic data processing -- Data preparation Η διαδικασία της εύρεσης και της διόρθωσης προβλημάτων στην ανάλυση δεδομένων είναι γνωστή ως καθαρισμός δεδομένων. Μια ουσιαστική, συχνά δαπανηρή και πάντα δύσκολη ευθύνη προκύπτει κατά τη συλλογή και συγχώνευση δεδομένων από διαφορετικές πηγές σε μια αποθήκη δεδομένων: η διασφάλιση καλής ποιότητας και συνέπειας των δεδομένων. Στην πραγματικότητα, μία από τις μόνιμες δυσκολίες στην ανάλυση δεδομένων είναι η εύρεση και ο καθορισμός των βρώμικων δεδομένων- η αποτυχία αυτή μπορεί να οδηγήσει σε λανθασμένες αναλύσεις και αναξιόπιστες κρίσεις. Το ενδιαφέρον για θέματα καθαρισμού δεδομένων έχει αυξηθεί πρόσφατα τόσο στη βιομηχανία όσο και στην πανεπιστημιακή κοινότητα. Για να κατανοήσουμε καλύτερα τις εξελίξεις σε αυτό το κομμάτι, στο πρώτο μέρος της διπλωματικής παρουσιάζονται διάφορες τεχνικές, μέθοδοι και προσεγγίσεις καθαρισμού δεδομένων. Το δεύτερο μέρος της μελέτης εφαρμόζει τεχνικές καθαρισμού δεδομένων σε τρεις συλλογές δεδομένων που σχετίζονται με τον κλάδο της εστίασης, τις τιμές της εταιρίας Uber και τα μεταχειρισμένα αυτοκίνητα. Αναλύονται διαφορετικά σενάρια που μπορούν να προκύψουν από την ανάλυση συλλογών δεδομένων τα οποία είναι διαθέσιμα δημόσια, αφού πρώτα γίνει καθαρισμός των δεδομένων με Excel και Python. Παρουσιάζονται τα αποτελέσματα της διαδικασίας καθαρισμού των δεδομένων, τα οποία δείχνουν ότι οι τεχνικές καθαρισμού των δεδομένων βελτιώνουν σημαντικά την ποιότητα και την ακρίβεια των συνόλων δεδομένων. 2023-06-01T08:49:57Z 2023-06-01T08:49:57Z 2023-02-08 http://hdl.handle.net/11610/25347 el_GR Attribution-NoDerivatives 4.0 Διεθνές http://creativecommons.org/licenses/by-nd/4.0/ 72 σ. application/pdf Σάμος
spellingShingle ανάλυση δεδομένων
συλλογή δεδομένων
καθαρισμός δεδομένων
data cleaning
data analytics
data science
Electronic data processing -- Quality control
Electronic data processing -- Data preparation
Τσικάκης, Δημήτριος
Μπαλαμώτη, Αλεξάνδρα
Καθαρισμός δεδομένων: επισκόπηση και εφαρμογή σε πραγματικά δεδομένα
title Καθαρισμός δεδομένων: επισκόπηση και εφαρμογή σε πραγματικά δεδομένα
title_full Καθαρισμός δεδομένων: επισκόπηση και εφαρμογή σε πραγματικά δεδομένα
title_fullStr Καθαρισμός δεδομένων: επισκόπηση και εφαρμογή σε πραγματικά δεδομένα
title_full_unstemmed Καθαρισμός δεδομένων: επισκόπηση και εφαρμογή σε πραγματικά δεδομένα
title_short Καθαρισμός δεδομένων: επισκόπηση και εφαρμογή σε πραγματικά δεδομένα
title_sort καθαρισμός δεδομένων επισκόπηση και εφαρμογή σε πραγματικά δεδομένα
topic ανάλυση δεδομένων
συλλογή δεδομένων
καθαρισμός δεδομένων
data cleaning
data analytics
data science
Electronic data processing -- Quality control
Electronic data processing -- Data preparation
url http://hdl.handle.net/11610/25347
work_keys_str_mv AT tsikakēsdēmētrios katharismosdedomenōnepiskopēsēkaiepharmogēsepragmatikadedomena
AT mpalamōtēalexandra katharismosdedomenōnepiskopēsēkaiepharmogēsepragmatikadedomena