| _version_ |
1828462364819718144
|
| author |
Σταυρόπουλος, Λεωνίδας
|
| author2 |
Κωστούλας, Θεόδωρος
|
| author_facet |
Κωστούλας, Θεόδωρος
Σταυρόπουλος, Λεωνίδας
|
| author_sort |
Σταυρόπουλος, Λεωνίδας
|
| collection |
DSpace
|
| description |
Η παρούσα διατριβή διερευνά τις δυνατότητες της επιβλεπόμενης μηχανικής μάθησης (supervised machine learning) για τη πρόβλεψη της θνησιμότητας σε ασθενείς με σήψη σε ΜΕΘ, αξιοποιώντας κλινικά δεδομένα χρονοσειρών από τη δημόσια διαθέσιμη βάση δεδομένων eICU. Για τη μετατροπή του συνόλου δεδομένων σε μορφή χρονοσειράς, ομαδοποιήσαμε τις περιπτώσεις ασθενών με βάση το μοναδικό αναγνωριστικό διαμονής στη ΜΕΘ και εξάγουμε τα σχετικά χαρακτηριστικά σε μια σειρά χρονικών παραθύρων. Κάθε χρονικό παράθυρο περιλαμβάνει ένα σύνολο μετασχηματισμένων χαρακτηριστικών για κάθε παρατήρηση που εμπίπτει στο παράθυρο, όπως η μέση τιμή, η μέγιστη και η ελάχιστη τιμή, καθώς και η τυπική απόκλιση και ο κινητός μέσος όρος. Το μήκος κάθε χρονικού παραθύρου ορίζεται σε 3 ώρες.
Για την πρόβλεψη της θνησιμότητας λόγω σήψης, χρησιμοποιούμε έναν ταξινομητή random forest ως μοντέλο πρόβλεψης. Ο αλγόριθμος random forest είναι κατάλληλος για το σύνολο δεδομένων μας, καθώς μπορεί να χειριστεί μεγάλο αριθμό χαρακτηριστικών και μπορεί να καταγράψει πολύπλοκες, μη γραμμικές σχέσεις μεταξύ των χαρακτηριστικών και της μεταβλητής-στόχου: της θνησιμότητας.
Προκειμένου να εκπαιδεύσουμε το μοντέλο, χωρίσαμε πρώτα το σύνολο δεδομένων σε ένα σύνολο εκπαίδευσης και ένα σύνολο δοκιμής, με διαχωρισμό 80/20. Για να αξιολογήσουμε την απόδοση του μοντέλου χρησιμοποιούμε μια προσέγγιση διαστρωματικής επικύρωσης ( με βάση τον χρήστη με 5 φορές διασταυρούμενη επικύρωση (5-fold cross validation). Αυτή η προσέγγιση μας επιτρέπει να αξιολογήσουμε την απόδοση του μοντέλου ανά διαμονή στη ΜΕΘ, ενώ παράλληλα διασφαλίζει ότι κάθε ασθενής αντιπροσωπεύεται τόσο στο σύνολο εκπαίδευσης όσο και στο σύνολο δοκιμής. Πραγματοποιήθηκαν διάφορα πειράματα προκειμένου να δημιουργηθεί ένα αξιόπιστο μοντέλο που βασίζεται στον ταξινομητή random forest.
Τα αποτελέσματα της μελέτης μας δείχνουν ότι η χρήση μιας προσέγγισης χρονοσειρών με πολλαπλές παρατηρήσεις ανά ασθενή σε χρονικά παράθυρα μπορεί να βελτιώσει την ακρίβεια του μοντέλου πρόβλεψης της θνησιμότητας λόγω σήψης. Συγκεκριμένα, διαπιστώσαμε ότι το μοντέλο πέτυχε ακρίβεια της καμπύλης ROC (AUC-ROC) 0,76, F1-score 0,76, accuracy 0,76, precision 0,75 και sensitivity 0,75, στο σύνολο δεδομένων δοκιμής στο τελικό πείραμά μας.
Τα αποτελέσματα δείχνουν ότι ο αλγόριθμος random forest αποτελεί κατάλληλη επιλογή για την πρόβλεψη της θνησιμότητας σε αυτόν τον πληθυσμό ασθενών. Η μελέτη υπογραμμίζει τη σημασία της αξιοποίησης των δεδομένων χρονοσειρών σε επίπεδο ασθενούς και των τεχνικών μετασχηματισμού χαρακτηριστικών (feature engineering) για τη βελτίωση της απόδοσης του μοντέλου, σε σύγκριση με τις μεθόδους που κάνουν χρήση μοναδικών συνολικών - συγκεντρωτικών στατιστικών τιμών ανά ασθενή χωρίς την αξιοποίηση των χρονικών χαρακτηριστικών, όπως υποδεικνύεται και από την σχετική βιβλιογραφία και αντίστοιχες έρευνες.
|
| id |
oai:hellanicus.lib.aegean.gr:11610-25349
|
| institution |
Hellanicus
|
| language |
English
|
| publishDate |
2023
|
| record_format |
dspace
|
| spelling |
oai:hellanicus.lib.aegean.gr:11610-253492025-03-11T08:58:08Z Εφαρμογή μοντέλου μηχανικής μάθησης για την πρόβλεψη θνητότητας λόγω σηψαιμίας σε πραγματικά δεδομένα ασθενών από Μονάδες Εντατικής Θεραπείας Σταυρόπουλος, Λεωνίδας Κωστούλας, Θεόδωρος Πληροφοριακά και Επικοινωνιακά Συστήματα μηχανική μάθηση ανάλυση δεδομένων μοντέλα πρόβλεψης machine learning data analytics predictive modelling health data eICU Data Base random forest classifier Machine learning. Mortality -- Forecasting Η παρούσα διατριβή διερευνά τις δυνατότητες της επιβλεπόμενης μηχανικής μάθησης (supervised machine learning) για τη πρόβλεψη της θνησιμότητας σε ασθενείς με σήψη σε ΜΕΘ, αξιοποιώντας κλινικά δεδομένα χρονοσειρών από τη δημόσια διαθέσιμη βάση δεδομένων eICU. Για τη μετατροπή του συνόλου δεδομένων σε μορφή χρονοσειράς, ομαδοποιήσαμε τις περιπτώσεις ασθενών με βάση το μοναδικό αναγνωριστικό διαμονής στη ΜΕΘ και εξάγουμε τα σχετικά χαρακτηριστικά σε μια σειρά χρονικών παραθύρων. Κάθε χρονικό παράθυρο περιλαμβάνει ένα σύνολο μετασχηματισμένων χαρακτηριστικών για κάθε παρατήρηση που εμπίπτει στο παράθυρο, όπως η μέση τιμή, η μέγιστη και η ελάχιστη τιμή, καθώς και η τυπική απόκλιση και ο κινητός μέσος όρος. Το μήκος κάθε χρονικού παραθύρου ορίζεται σε 3 ώρες. Για την πρόβλεψη της θνησιμότητας λόγω σήψης, χρησιμοποιούμε έναν ταξινομητή random forest ως μοντέλο πρόβλεψης. Ο αλγόριθμος random forest είναι κατάλληλος για το σύνολο δεδομένων μας, καθώς μπορεί να χειριστεί μεγάλο αριθμό χαρακτηριστικών και μπορεί να καταγράψει πολύπλοκες, μη γραμμικές σχέσεις μεταξύ των χαρακτηριστικών και της μεταβλητής-στόχου: της θνησιμότητας. Προκειμένου να εκπαιδεύσουμε το μοντέλο, χωρίσαμε πρώτα το σύνολο δεδομένων σε ένα σύνολο εκπαίδευσης και ένα σύνολο δοκιμής, με διαχωρισμό 80/20. Για να αξιολογήσουμε την απόδοση του μοντέλου χρησιμοποιούμε μια προσέγγιση διαστρωματικής επικύρωσης ( με βάση τον χρήστη με 5 φορές διασταυρούμενη επικύρωση (5-fold cross validation). Αυτή η προσέγγιση μας επιτρέπει να αξιολογήσουμε την απόδοση του μοντέλου ανά διαμονή στη ΜΕΘ, ενώ παράλληλα διασφαλίζει ότι κάθε ασθενής αντιπροσωπεύεται τόσο στο σύνολο εκπαίδευσης όσο και στο σύνολο δοκιμής. Πραγματοποιήθηκαν διάφορα πειράματα προκειμένου να δημιουργηθεί ένα αξιόπιστο μοντέλο που βασίζεται στον ταξινομητή random forest. Τα αποτελέσματα της μελέτης μας δείχνουν ότι η χρήση μιας προσέγγισης χρονοσειρών με πολλαπλές παρατηρήσεις ανά ασθενή σε χρονικά παράθυρα μπορεί να βελτιώσει την ακρίβεια του μοντέλου πρόβλεψης της θνησιμότητας λόγω σήψης. Συγκεκριμένα, διαπιστώσαμε ότι το μοντέλο πέτυχε ακρίβεια της καμπύλης ROC (AUC-ROC) 0,76, F1-score 0,76, accuracy 0,76, precision 0,75 και sensitivity 0,75, στο σύνολο δεδομένων δοκιμής στο τελικό πείραμά μας. Τα αποτελέσματα δείχνουν ότι ο αλγόριθμος random forest αποτελεί κατάλληλη επιλογή για την πρόβλεψη της θνησιμότητας σε αυτόν τον πληθυσμό ασθενών. Η μελέτη υπογραμμίζει τη σημασία της αξιοποίησης των δεδομένων χρονοσειρών σε επίπεδο ασθενούς και των τεχνικών μετασχηματισμού χαρακτηριστικών (feature engineering) για τη βελτίωση της απόδοσης του μοντέλου, σε σύγκριση με τις μεθόδους που κάνουν χρήση μοναδικών συνολικών - συγκεντρωτικών στατιστικών τιμών ανά ασθενή χωρίς την αξιοποίηση των χρονικών χαρακτηριστικών, όπως υποδεικνύεται και από την σχετική βιβλιογραφία και αντίστοιχες έρευνες. This Thesis explores the potential of supervised machine learning for predicting mortality in sepsis patients in the ICU, leveraging timeseries clinical data from the publicly available eICU database. To convert the dataset into a time series format, we grouped the patient cases by unique ICU stay ID and extract the relevant features over a series of time windows. Each time window includes a set of engineered features for each observation that falls within the window, such as the average, maximum and minimum values, as well as the standard deviation and the moving average. The length of each time window is set to 3 hours. To predict mortality due to sepsis, we use a random forest classifier as our prediction model. The random forest algorithm is well-suited for our dataset, as it can handle a large number of features and can capture complex, non-linear relationships between the features and the target variable of mortality. In order to train the random forest classifier, we first split the dataset into a training set and a testing set, with a 80/20 split. To evaluate the performance of the random forest classifier, we use a stratified user-based cross-validation approach with 5-fold cross-validation. This approach allows us to evaluate the performance of the model on a per ICU stay basis, while also ensuring that each patient is represented in both the training and testing sets. A number of different experiments have been conducted in order to build a robust model based on Random Forest classifier. The results of our study show that the use of a time series approach with multiple observations per patient in time windows can improve the accuracy of the prediction model for mortality due to sepsis. Specifically, we found that the random forest classifier achieved an accuracy of ROC curve (AUC-ROC) of 0,76, F1-score of 0,76, accuracy of 0,76, with a precision of 0,75 and a sensitivity of 0,75 on the testing dataset in our final experiment. The results show that the random forest algorithm is a suitable choice for mortality prediction in this patient population. The study highlights the importance of leveraging the time series of the records on the patient level and feature engineering techniques in improving the performance of the model, compared to single summary values per patient without time feature models. 2023-06-01T08:50:57Z 2023-06-01T08:50:57Z 2023-03-08 http://hdl.handle.net/11610/25349 en Αναφορά Δημιουργού - Παρόμοια Διανομή 4.0 Διεθνές http://creativecommons.org/licenses/by-sa/4.0/ 94 σ. application/pdf Σάμος
|
| spellingShingle |
μηχανική μάθηση
ανάλυση δεδομένων
μοντέλα πρόβλεψης
machine learning
data analytics
predictive modelling
health data
eICU Data Base
random forest classifier
Machine learning.
Mortality -- Forecasting
Σταυρόπουλος, Λεωνίδας
Εφαρμογή μοντέλου μηχανικής μάθησης για την πρόβλεψη θνητότητας λόγω σηψαιμίας σε πραγματικά δεδομένα ασθενών από Μονάδες Εντατικής Θεραπείας
|
| title |
Εφαρμογή μοντέλου μηχανικής μάθησης για την πρόβλεψη θνητότητας λόγω σηψαιμίας σε πραγματικά δεδομένα ασθενών από Μονάδες Εντατικής Θεραπείας
|
| title_full |
Εφαρμογή μοντέλου μηχανικής μάθησης για την πρόβλεψη θνητότητας λόγω σηψαιμίας σε πραγματικά δεδομένα ασθενών από Μονάδες Εντατικής Θεραπείας
|
| title_fullStr |
Εφαρμογή μοντέλου μηχανικής μάθησης για την πρόβλεψη θνητότητας λόγω σηψαιμίας σε πραγματικά δεδομένα ασθενών από Μονάδες Εντατικής Θεραπείας
|
| title_full_unstemmed |
Εφαρμογή μοντέλου μηχανικής μάθησης για την πρόβλεψη θνητότητας λόγω σηψαιμίας σε πραγματικά δεδομένα ασθενών από Μονάδες Εντατικής Θεραπείας
|
| title_short |
Εφαρμογή μοντέλου μηχανικής μάθησης για την πρόβλεψη θνητότητας λόγω σηψαιμίας σε πραγματικά δεδομένα ασθενών από Μονάδες Εντατικής Θεραπείας
|
| title_sort |
εφαρμογή μοντέλου μηχανικής μάθησης για την πρόβλεψη θνητότητας λόγω σηψαιμίας σε πραγματικά δεδομένα ασθενών από μονάδες εντατικής θεραπείας
|
| topic |
μηχανική μάθηση
ανάλυση δεδομένων
μοντέλα πρόβλεψης
machine learning
data analytics
predictive modelling
health data
eICU Data Base
random forest classifier
Machine learning.
Mortality -- Forecasting
|
| url |
http://hdl.handle.net/11610/25349
|
| work_keys_str_mv |
AT stauropoulosleōnidas epharmogēmonteloumēchanikēsmathēsēsgiatēnproblepsēthnētotētaslogōsēpsaimiassepragmatikadedomenaasthenōnapomonadesentatikēstherapeias
|