Recent advances on dimensionality reduction for high-dimensional data analysis with applications

Μεγάλης κλίμακος ακατέργαστα δεδομένα μπορεί να αποτύχουν στην ορθή επιλογή και εκτίμηση ενός μοντέλου, γεγονός που συχνά αποδίδεται στην ύπαρξη πολυσυγγραμμικότητας μεταξύ των μεταβλητών, και γι' αυτό συστήνεται η προεπεξεργασία των δεδομένων ώστε να επιτευχθεί καλύτερη μοντελοποίηση και οπτικ...

Πλήρης περιγραφή

Αποθηκεύτηκε σε:
Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριοι συγγραφείς: Ντότσης, Κίμων, Ntotsis, Kimon
Άλλοι συγγραφείς: Καραγρηγορίου, Αλέξανδρος
Γλώσσα:English
Δημοσίευση: 2023
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/11610/24480
Ετικέτες: Προσθήκη ετικέτας
Δεν υπάρχουν, Καταχωρήστε ετικέτα πρώτοι!
Περιγραφή
Περίληψη:Μεγάλης κλίμακος ακατέργαστα δεδομένα μπορεί να αποτύχουν στην ορθή επιλογή και εκτίμηση ενός μοντέλου, γεγονός που συχνά αποδίδεται στην ύπαρξη πολυσυγγραμμικότητας μεταξύ των μεταβλητών, και γι' αυτό συστήνεται η προεπεξεργασία των δεδομένων ώστε να επιτευχθεί καλύτερη μοντελοποίηση και οπτικοποίηση. Για την αντιμετώπιση της τροχοπέδης που δημιουργούν τα ακατέργαστα δεδομένα, μεταξύ άλλων δυσκολιών, αναπτύχθηκαν οι Τεχνικές Μείωσης Διάστασης σε μια προσπάθεια να μετριαστεί το μέγεθος των υπερβολικά παραμετροποιημένων λύσεων που προκύπτουν σε χώρους υψηλών διαστάσεων. Στόχος αυτής της διατριβής, η οποία χρησιμοποιεί εργαλεία πολυμεταβλητής στατιστικής ανάλυσης δεδομένων, είναι να διερευνήσει, να αναλύσει, να συγκρίνει και να βελτιώσει υφιστάμενες τεχνικές, ενώ παράλληλα να εισάγει νέες για την αντιμετώπιση της πολυσυγγραμμικότητας και τη μείωση του χώρου (διάστασης) δεδομένων υψηλών διαστάσεων. Ειδικότερα, η παρούσα διδακτορική διατριβή σκιαγραφεί αρχικά το θεωρητικό πλαίσιο της μη επιβλεπόμενης τεχνικής της Ανάλυσης Κύριων Συνιστωσών καθώς και της αντίστοιχης επιβλεπόμενης δηλ. της μεθόδου Μερικών Ελάχιστων Τετράγωνων. Λόγω της ικανότητάς τους να επιτυγχάνουν μείωση διάστασης κατά την ανάλυση συνόλων δεδομένων υψηλών διαστάσεων, και οι δύο τεχνικές θεωρούνται βέλτιστες για δημιουργία νέων μεταβλητών. Η χρήση της πρώτης σε συνδυασμό με άλλες τεχνικές μείωσης διάστασης, καθώς και η τροποποίηση της δεύτερης, - ώστε να λειτουργεί ταυτόχρονα και ως τεχνική επιλογής μεταβλητών αλλά και ως τεχνική δημιουργίας μεταβλητών-, εφαρμόστηκαν και μελετήθηκαν διεξοδικά στους τομείς της οικονομετρίας, χρηματοοικονομικής και αναλογιστικής επιστήμης. Τέλος, στη διατριβή αυτή προτείνεται ένα εύρωστο και εύκολα ερμηνεύσιμο μη επιβλεπόμενο κριτήριο επιλογής μεταβλητών (Elastic Information Criterion), το οποίο είναι ικανό να εντοπίζει μοτίβα αλληλεξάρτησης μεταξύ των μεταβλητών ενός dataset. Το συγκεκριμένο κριτήριο δρα ταυτόχρονα (i) ως κριτήριο αξιολόγησης της ύπαρξης ή/και του βαθμού της πολυσυγγραμμικότητας και (ii) ως τεχνική επιλογής μεταβλητών.