Καθαρισμός δεδομένων: επισκόπηση και εφαρμογή σε πραγματικά δεδομένα

Η διαδικασία της εύρεσης και της διόρθωσης προβλημάτων στην ανάλυση δεδομένων είναι γνωστή ως καθαρισμός δεδομένων. Μια ουσιαστική, συχνά δαπανηρή και πάντα δύσκολη ευθύνη προκύπτει κατά τη συλλογή και συγχώνευση δεδομένων από διαφορετικές πηγές σε μια αποθήκη δεδομένων: η διασφάλιση καλής ποιότητα...

Πλήρης περιγραφή

Αποθηκεύτηκε σε:
Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριοι συγγραφείς: Τσικάκης, Δημήτριος, Μπαλαμώτη, Αλεξάνδρα
Άλλοι συγγραφείς: Βλάχου, Ακριβή
Γλώσσα:el_GR
Δημοσίευση: 2023
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/11610/25347
Ετικέτες: Προσθήκη ετικέτας
Δεν υπάρχουν, Καταχωρήστε ετικέτα πρώτοι!
Περιγραφή
Περίληψη:Η διαδικασία της εύρεσης και της διόρθωσης προβλημάτων στην ανάλυση δεδομένων είναι γνωστή ως καθαρισμός δεδομένων. Μια ουσιαστική, συχνά δαπανηρή και πάντα δύσκολη ευθύνη προκύπτει κατά τη συλλογή και συγχώνευση δεδομένων από διαφορετικές πηγές σε μια αποθήκη δεδομένων: η διασφάλιση καλής ποιότητας και συνέπειας των δεδομένων. Στην πραγματικότητα, μία από τις μόνιμες δυσκολίες στην ανάλυση δεδομένων είναι η εύρεση και ο καθορισμός των βρώμικων δεδομένων- η αποτυχία αυτή μπορεί να οδηγήσει σε λανθασμένες αναλύσεις και αναξιόπιστες κρίσεις. Το ενδιαφέρον για θέματα καθαρισμού δεδομένων έχει αυξηθεί πρόσφατα τόσο στη βιομηχανία όσο και στην πανεπιστημιακή κοινότητα. Για να κατανοήσουμε καλύτερα τις εξελίξεις σε αυτό το κομμάτι, στο πρώτο μέρος της διπλωματικής παρουσιάζονται διάφορες τεχνικές, μέθοδοι και προσεγγίσεις καθαρισμού δεδομένων. Το δεύτερο μέρος της μελέτης εφαρμόζει τεχνικές καθαρισμού δεδομένων σε τρεις συλλογές δεδομένων που σχετίζονται με τον κλάδο της εστίασης, τις τιμές της εταιρίας Uber και τα μεταχειρισμένα αυτοκίνητα. Αναλύονται διαφορετικά σενάρια που μπορούν να προκύψουν από την ανάλυση συλλογών δεδομένων τα οποία είναι διαθέσιμα δημόσια, αφού πρώτα γίνει καθαρισμός των δεδομένων με Excel και Python. Παρουσιάζονται τα αποτελέσματα της διαδικασίας καθαρισμού των δεδομένων, τα οποία δείχνουν ότι οι τεχνικές καθαρισμού των δεδομένων βελτιώνουν σημαντικά την ποιότητα και την ακρίβεια των συνόλων δεδομένων.