Recent advances on dimensionality reduction for high-dimensional data analysis with applications

Μεγάλης κλίμακος ακατέργαστα δεδομένα μπορεί να αποτύχουν στην ορθή επιλογή και εκτίμηση ενός μοντέλου, γεγονός που συχνά αποδίδεται στην ύπαρξη πολυσυγγραμμικότητας μεταξύ των μεταβλητών, και γι' αυτό συστήνεται η προεπεξεργασία των δεδομένων ώστε να επιτευχθεί καλύτερη μοντελοποίηση και οπτικ...

Full description

Saved in:
Bibliographic Details
Main Authors: Ντότσης, Κίμων, Ntotsis, Kimon
Other Authors: Καραγρηγορίου, Αλέξανδρος
Language:English
Published: 2023
Subjects:
Online Access:http://hdl.handle.net/11610/24480
Tags: Add Tag
No Tags, Be the first to tag this record!
_version_ 1828461819233042432
author Ντότσης, Κίμων
Ntotsis, Kimon
author2 Καραγρηγορίου, Αλέξανδρος
author_facet Καραγρηγορίου, Αλέξανδρος
Ντότσης, Κίμων
Ntotsis, Kimon
author_sort Ντότσης, Κίμων
collection DSpace
description Μεγάλης κλίμακος ακατέργαστα δεδομένα μπορεί να αποτύχουν στην ορθή επιλογή και εκτίμηση ενός μοντέλου, γεγονός που συχνά αποδίδεται στην ύπαρξη πολυσυγγραμμικότητας μεταξύ των μεταβλητών, και γι' αυτό συστήνεται η προεπεξεργασία των δεδομένων ώστε να επιτευχθεί καλύτερη μοντελοποίηση και οπτικοποίηση. Για την αντιμετώπιση της τροχοπέδης που δημιουργούν τα ακατέργαστα δεδομένα, μεταξύ άλλων δυσκολιών, αναπτύχθηκαν οι Τεχνικές Μείωσης Διάστασης σε μια προσπάθεια να μετριαστεί το μέγεθος των υπερβολικά παραμετροποιημένων λύσεων που προκύπτουν σε χώρους υψηλών διαστάσεων. Στόχος αυτής της διατριβής, η οποία χρησιμοποιεί εργαλεία πολυμεταβλητής στατιστικής ανάλυσης δεδομένων, είναι να διερευνήσει, να αναλύσει, να συγκρίνει και να βελτιώσει υφιστάμενες τεχνικές, ενώ παράλληλα να εισάγει νέες για την αντιμετώπιση της πολυσυγγραμμικότητας και τη μείωση του χώρου (διάστασης) δεδομένων υψηλών διαστάσεων. Ειδικότερα, η παρούσα διδακτορική διατριβή σκιαγραφεί αρχικά το θεωρητικό πλαίσιο της μη επιβλεπόμενης τεχνικής της Ανάλυσης Κύριων Συνιστωσών καθώς και της αντίστοιχης επιβλεπόμενης δηλ. της μεθόδου Μερικών Ελάχιστων Τετράγωνων. Λόγω της ικανότητάς τους να επιτυγχάνουν μείωση διάστασης κατά την ανάλυση συνόλων δεδομένων υψηλών διαστάσεων, και οι δύο τεχνικές θεωρούνται βέλτιστες για δημιουργία νέων μεταβλητών. Η χρήση της πρώτης σε συνδυασμό με άλλες τεχνικές μείωσης διάστασης, καθώς και η τροποποίηση της δεύτερης, - ώστε να λειτουργεί ταυτόχρονα και ως τεχνική επιλογής μεταβλητών αλλά και ως τεχνική δημιουργίας μεταβλητών-, εφαρμόστηκαν και μελετήθηκαν διεξοδικά στους τομείς της οικονομετρίας, χρηματοοικονομικής και αναλογιστικής επιστήμης. Τέλος, στη διατριβή αυτή προτείνεται ένα εύρωστο και εύκολα ερμηνεύσιμο μη επιβλεπόμενο κριτήριο επιλογής μεταβλητών (Elastic Information Criterion), το οποίο είναι ικανό να εντοπίζει μοτίβα αλληλεξάρτησης μεταξύ των μεταβλητών ενός dataset. Το συγκεκριμένο κριτήριο δρα ταυτόχρονα (i) ως κριτήριο αξιολόγησης της ύπαρξης ή/και του βαθμού της πολυσυγγραμμικότητας και (ii) ως τεχνική επιλογής μεταβλητών.
id oai:hellanicus.lib.aegean.gr:11610-24480
institution Hellanicus
language English
publishDate 2023
record_format dspace
spelling oai:hellanicus.lib.aegean.gr:11610-244802023-01-12T08:37:42Z Recent advances on dimensionality reduction for high-dimensional data analysis with applications Πρόσφατες εξελίξεις για μείωση διάστασης στην πολυδιάστατη ανάλυση δεδομένων με εφαρμογές Ντότσης, Κίμων Ntotsis, Kimon Καραγρηγορίου, Αλέξανδρος Στατιστική και Αναλογιστικά - Χρηματοοικονομικά Μαθηματικά μείωση διαστάσεων πολυσυγγραμμικότητα επιλογή μεταβλητών dimension reduction model selection multicollinearity Data reduction Dimension reduction (Statistics) Multicollinearity Μεγάλης κλίμακος ακατέργαστα δεδομένα μπορεί να αποτύχουν στην ορθή επιλογή και εκτίμηση ενός μοντέλου, γεγονός που συχνά αποδίδεται στην ύπαρξη πολυσυγγραμμικότητας μεταξύ των μεταβλητών, και γι' αυτό συστήνεται η προεπεξεργασία των δεδομένων ώστε να επιτευχθεί καλύτερη μοντελοποίηση και οπτικοποίηση. Για την αντιμετώπιση της τροχοπέδης που δημιουργούν τα ακατέργαστα δεδομένα, μεταξύ άλλων δυσκολιών, αναπτύχθηκαν οι Τεχνικές Μείωσης Διάστασης σε μια προσπάθεια να μετριαστεί το μέγεθος των υπερβολικά παραμετροποιημένων λύσεων που προκύπτουν σε χώρους υψηλών διαστάσεων. Στόχος αυτής της διατριβής, η οποία χρησιμοποιεί εργαλεία πολυμεταβλητής στατιστικής ανάλυσης δεδομένων, είναι να διερευνήσει, να αναλύσει, να συγκρίνει και να βελτιώσει υφιστάμενες τεχνικές, ενώ παράλληλα να εισάγει νέες για την αντιμετώπιση της πολυσυγγραμμικότητας και τη μείωση του χώρου (διάστασης) δεδομένων υψηλών διαστάσεων. Ειδικότερα, η παρούσα διδακτορική διατριβή σκιαγραφεί αρχικά το θεωρητικό πλαίσιο της μη επιβλεπόμενης τεχνικής της Ανάλυσης Κύριων Συνιστωσών καθώς και της αντίστοιχης επιβλεπόμενης δηλ. της μεθόδου Μερικών Ελάχιστων Τετράγωνων. Λόγω της ικανότητάς τους να επιτυγχάνουν μείωση διάστασης κατά την ανάλυση συνόλων δεδομένων υψηλών διαστάσεων, και οι δύο τεχνικές θεωρούνται βέλτιστες για δημιουργία νέων μεταβλητών. Η χρήση της πρώτης σε συνδυασμό με άλλες τεχνικές μείωσης διάστασης, καθώς και η τροποποίηση της δεύτερης, - ώστε να λειτουργεί ταυτόχρονα και ως τεχνική επιλογής μεταβλητών αλλά και ως τεχνική δημιουργίας μεταβλητών-, εφαρμόστηκαν και μελετήθηκαν διεξοδικά στους τομείς της οικονομετρίας, χρηματοοικονομικής και αναλογιστικής επιστήμης. Τέλος, στη διατριβή αυτή προτείνεται ένα εύρωστο και εύκολα ερμηνεύσιμο μη επιβλεπόμενο κριτήριο επιλογής μεταβλητών (Elastic Information Criterion), το οποίο είναι ικανό να εντοπίζει μοτίβα αλληλεξάρτησης μεταξύ των μεταβλητών ενός dataset. Το συγκεκριμένο κριτήριο δρα ταυτόχρονα (i) ως κριτήριο αξιολόγησης της ύπαρξης ή/και του βαθμού της πολυσυγγραμμικότητας και (ii) ως τεχνική επιλογής μεταβλητών. Large amounts of raw data often can fail to perform properly for model estima- tion, attributed to the existence of multicollinearity between variables, and that is why they must be pre-processed for better modeling and visualization. To address raw data barriers, among other difficulties, Dimension Reduction Techniques were developed in an effort to mitigate the magnitude of over-parametrized solutions that arise in high-dimensional spaces. The aim of this dissertation, which utilizes multivariate analysis tools, is to investigate, analyze, compare, and improve cur- rent techniques while still introducing new ones for dealing with multicollinearity and reducing the feature space of high-dimensional data. In particular, this doc- toral thesis initially outlines the theoretical framework concerning the unsupervised technique, Principal Component Analysis, and its supervised counterpart, the Par- tial Least Squares method. Due to their ability to obtain dimension reduction when analyzing high-dimensional datasets, both techniques are considered optimal for feature extraction. The use of the former in conjunction with other dimension reduc- tion techniques, as well as the modification of the latter, - so that it may be applied as a feature selection and feature extraction simultaneously-, were implemented and thoroughly studied in the fields of econometrics, finance and actuarial science. Fi- nally, a new unsupervised linear feature selection technique is proposed as a robust and easily interpretable methodology, termed Elastic Information Criterion, that is capable of capturing multicollinearity rather accurately and effectively and thus pro- viding a proper dataset assessment. 2023-01-10T10:35:37Z 2023-01-10T10:35:37Z 2022-10-17 http://hdl.handle.net/11610/24480 en Default License 143 σ. application/pdf Σάμος
spellingShingle μείωση διαστάσεων
πολυσυγγραμμικότητα
επιλογή μεταβλητών
dimension reduction
model selection
multicollinearity
Data reduction
Dimension reduction (Statistics)
Multicollinearity
Ντότσης, Κίμων
Ntotsis, Kimon
Recent advances on dimensionality reduction for high-dimensional data analysis with applications
title Recent advances on dimensionality reduction for high-dimensional data analysis with applications
title_full Recent advances on dimensionality reduction for high-dimensional data analysis with applications
title_fullStr Recent advances on dimensionality reduction for high-dimensional data analysis with applications
title_full_unstemmed Recent advances on dimensionality reduction for high-dimensional data analysis with applications
title_short Recent advances on dimensionality reduction for high-dimensional data analysis with applications
title_sort recent advances on dimensionality reduction for high dimensional data analysis with applications
topic μείωση διαστάσεων
πολυσυγγραμμικότητα
επιλογή μεταβλητών
dimension reduction
model selection
multicollinearity
Data reduction
Dimension reduction (Statistics)
Multicollinearity
url http://hdl.handle.net/11610/24480
work_keys_str_mv AT ntotsēskimōn recentadvancesondimensionalityreductionforhighdimensionaldataanalysiswithapplications
AT ntotsiskimon recentadvancesondimensionalityreductionforhighdimensionaldataanalysiswithapplications
AT ntotsēskimōn prosphatesexelixeisgiameiōsēdiastasēsstēnpolydiastatēanalysēdedomenōnmeepharmoges
AT ntotsiskimon prosphatesexelixeisgiameiōsēdiastasēsstēnpolydiastatēanalysēdedomenōnmeepharmoges