Εφαρμογή μοντέλου μηχανικής μάθησης για την πρόβλεψη θνητότητας λόγω σηψαιμίας σε πραγματικά δεδομένα ασθενών από Μονάδες Εντατικής Θεραπείας

Η παρούσα διατριβή διερευνά τις δυνατότητες της επιβλεπόμενης μηχανικής μάθησης (supervised machine learning) για τη πρόβλεψη της θνησιμότητας σε ασθενείς με σήψη σε ΜΕΘ, αξιοποιώντας κλινικά δεδομένα χρονοσειρών από τη δημόσια διαθέσιμη βάση δεδομένων eICU. Για τη μετατροπή του συνόλου δεδομένων σε...

Full description

Saved in:
Bibliographic Details
Main Author: Σταυρόπουλος, Λεωνίδας
Other Authors: Κωστούλας, Θεόδωρος
Language:English
Published: 2023
Subjects:
Online Access:http://hdl.handle.net/11610/25349
Tags: Add Tag
No Tags, Be the first to tag this record!
_version_ 1828462364819718144
author Σταυρόπουλος, Λεωνίδας
author2 Κωστούλας, Θεόδωρος
author_facet Κωστούλας, Θεόδωρος
Σταυρόπουλος, Λεωνίδας
author_sort Σταυρόπουλος, Λεωνίδας
collection DSpace
description Η παρούσα διατριβή διερευνά τις δυνατότητες της επιβλεπόμενης μηχανικής μάθησης (supervised machine learning) για τη πρόβλεψη της θνησιμότητας σε ασθενείς με σήψη σε ΜΕΘ, αξιοποιώντας κλινικά δεδομένα χρονοσειρών από τη δημόσια διαθέσιμη βάση δεδομένων eICU. Για τη μετατροπή του συνόλου δεδομένων σε μορφή χρονοσειράς, ομαδοποιήσαμε τις περιπτώσεις ασθενών με βάση το μοναδικό αναγνωριστικό διαμονής στη ΜΕΘ και εξάγουμε τα σχετικά χαρακτηριστικά σε μια σειρά χρονικών παραθύρων. Κάθε χρονικό παράθυρο περιλαμβάνει ένα σύνολο μετασχηματισμένων χαρακτηριστικών για κάθε παρατήρηση που εμπίπτει στο παράθυρο, όπως η μέση τιμή, η μέγιστη και η ελάχιστη τιμή, καθώς και η τυπική απόκλιση και ο κινητός μέσος όρος. Το μήκος κάθε χρονικού παραθύρου ορίζεται σε 3 ώρες. Για την πρόβλεψη της θνησιμότητας λόγω σήψης, χρησιμοποιούμε έναν ταξινομητή random forest ως μοντέλο πρόβλεψης. Ο αλγόριθμος random forest είναι κατάλληλος για το σύνολο δεδομένων μας, καθώς μπορεί να χειριστεί μεγάλο αριθμό χαρακτηριστικών και μπορεί να καταγράψει πολύπλοκες, μη γραμμικές σχέσεις μεταξύ των χαρακτηριστικών και της μεταβλητής-στόχου: της θνησιμότητας. Προκειμένου να εκπαιδεύσουμε το μοντέλο, χωρίσαμε πρώτα το σύνολο δεδομένων σε ένα σύνολο εκπαίδευσης και ένα σύνολο δοκιμής, με διαχωρισμό 80/20. Για να αξιολογήσουμε την απόδοση του μοντέλου χρησιμοποιούμε μια προσέγγιση διαστρωματικής επικύρωσης ( με βάση τον χρήστη με 5 φορές διασταυρούμενη επικύρωση (5-fold cross validation). Αυτή η προσέγγιση μας επιτρέπει να αξιολογήσουμε την απόδοση του μοντέλου ανά διαμονή στη ΜΕΘ, ενώ παράλληλα διασφαλίζει ότι κάθε ασθενής αντιπροσωπεύεται τόσο στο σύνολο εκπαίδευσης όσο και στο σύνολο δοκιμής. Πραγματοποιήθηκαν διάφορα πειράματα προκειμένου να δημιουργηθεί ένα αξιόπιστο μοντέλο που βασίζεται στον ταξινομητή random forest. Τα αποτελέσματα της μελέτης μας δείχνουν ότι η χρήση μιας προσέγγισης χρονοσειρών με πολλαπλές παρατηρήσεις ανά ασθενή σε χρονικά παράθυρα μπορεί να βελτιώσει την ακρίβεια του μοντέλου πρόβλεψης της θνησιμότητας λόγω σήψης. Συγκεκριμένα, διαπιστώσαμε ότι το μοντέλο πέτυχε ακρίβεια της καμπύλης ROC (AUC-ROC) 0,76, F1-score 0,76, accuracy 0,76, precision 0,75 και sensitivity 0,75, στο σύνολο δεδομένων δοκιμής στο τελικό πείραμά μας. Τα αποτελέσματα δείχνουν ότι ο αλγόριθμος random forest αποτελεί κατάλληλη επιλογή για την πρόβλεψη της θνησιμότητας σε αυτόν τον πληθυσμό ασθενών. Η μελέτη υπογραμμίζει τη σημασία της αξιοποίησης των δεδομένων χρονοσειρών σε επίπεδο ασθενούς και των τεχνικών μετασχηματισμού χαρακτηριστικών (feature engineering) για τη βελτίωση της απόδοσης του μοντέλου, σε σύγκριση με τις μεθόδους που κάνουν χρήση μοναδικών συνολικών - συγκεντρωτικών στατιστικών τιμών ανά ασθενή χωρίς την αξιοποίηση των χρονικών χαρακτηριστικών, όπως υποδεικνύεται και από την σχετική βιβλιογραφία και αντίστοιχες έρευνες.
id oai:hellanicus.lib.aegean.gr:11610-25349
institution Hellanicus
language English
publishDate 2023
record_format dspace
spelling oai:hellanicus.lib.aegean.gr:11610-253492025-03-11T08:58:08Z Εφαρμογή μοντέλου μηχανικής μάθησης για την πρόβλεψη θνητότητας λόγω σηψαιμίας σε πραγματικά δεδομένα ασθενών από Μονάδες Εντατικής Θεραπείας Σταυρόπουλος, Λεωνίδας Κωστούλας, Θεόδωρος Πληροφοριακά και Επικοινωνιακά Συστήματα μηχανική μάθηση ανάλυση δεδομένων μοντέλα πρόβλεψης machine learning data analytics predictive modelling health data eICU Data Base random forest classifier Machine learning. Mortality -- Forecasting Η παρούσα διατριβή διερευνά τις δυνατότητες της επιβλεπόμενης μηχανικής μάθησης (supervised machine learning) για τη πρόβλεψη της θνησιμότητας σε ασθενείς με σήψη σε ΜΕΘ, αξιοποιώντας κλινικά δεδομένα χρονοσειρών από τη δημόσια διαθέσιμη βάση δεδομένων eICU. Για τη μετατροπή του συνόλου δεδομένων σε μορφή χρονοσειράς, ομαδοποιήσαμε τις περιπτώσεις ασθενών με βάση το μοναδικό αναγνωριστικό διαμονής στη ΜΕΘ και εξάγουμε τα σχετικά χαρακτηριστικά σε μια σειρά χρονικών παραθύρων. Κάθε χρονικό παράθυρο περιλαμβάνει ένα σύνολο μετασχηματισμένων χαρακτηριστικών για κάθε παρατήρηση που εμπίπτει στο παράθυρο, όπως η μέση τιμή, η μέγιστη και η ελάχιστη τιμή, καθώς και η τυπική απόκλιση και ο κινητός μέσος όρος. Το μήκος κάθε χρονικού παραθύρου ορίζεται σε 3 ώρες. Για την πρόβλεψη της θνησιμότητας λόγω σήψης, χρησιμοποιούμε έναν ταξινομητή random forest ως μοντέλο πρόβλεψης. Ο αλγόριθμος random forest είναι κατάλληλος για το σύνολο δεδομένων μας, καθώς μπορεί να χειριστεί μεγάλο αριθμό χαρακτηριστικών και μπορεί να καταγράψει πολύπλοκες, μη γραμμικές σχέσεις μεταξύ των χαρακτηριστικών και της μεταβλητής-στόχου: της θνησιμότητας. Προκειμένου να εκπαιδεύσουμε το μοντέλο, χωρίσαμε πρώτα το σύνολο δεδομένων σε ένα σύνολο εκπαίδευσης και ένα σύνολο δοκιμής, με διαχωρισμό 80/20. Για να αξιολογήσουμε την απόδοση του μοντέλου χρησιμοποιούμε μια προσέγγιση διαστρωματικής επικύρωσης ( με βάση τον χρήστη με 5 φορές διασταυρούμενη επικύρωση (5-fold cross validation). Αυτή η προσέγγιση μας επιτρέπει να αξιολογήσουμε την απόδοση του μοντέλου ανά διαμονή στη ΜΕΘ, ενώ παράλληλα διασφαλίζει ότι κάθε ασθενής αντιπροσωπεύεται τόσο στο σύνολο εκπαίδευσης όσο και στο σύνολο δοκιμής. Πραγματοποιήθηκαν διάφορα πειράματα προκειμένου να δημιουργηθεί ένα αξιόπιστο μοντέλο που βασίζεται στον ταξινομητή random forest. Τα αποτελέσματα της μελέτης μας δείχνουν ότι η χρήση μιας προσέγγισης χρονοσειρών με πολλαπλές παρατηρήσεις ανά ασθενή σε χρονικά παράθυρα μπορεί να βελτιώσει την ακρίβεια του μοντέλου πρόβλεψης της θνησιμότητας λόγω σήψης. Συγκεκριμένα, διαπιστώσαμε ότι το μοντέλο πέτυχε ακρίβεια της καμπύλης ROC (AUC-ROC) 0,76, F1-score 0,76, accuracy 0,76, precision 0,75 και sensitivity 0,75, στο σύνολο δεδομένων δοκιμής στο τελικό πείραμά μας. Τα αποτελέσματα δείχνουν ότι ο αλγόριθμος random forest αποτελεί κατάλληλη επιλογή για την πρόβλεψη της θνησιμότητας σε αυτόν τον πληθυσμό ασθενών. Η μελέτη υπογραμμίζει τη σημασία της αξιοποίησης των δεδομένων χρονοσειρών σε επίπεδο ασθενούς και των τεχνικών μετασχηματισμού χαρακτηριστικών (feature engineering) για τη βελτίωση της απόδοσης του μοντέλου, σε σύγκριση με τις μεθόδους που κάνουν χρήση μοναδικών συνολικών - συγκεντρωτικών στατιστικών τιμών ανά ασθενή χωρίς την αξιοποίηση των χρονικών χαρακτηριστικών, όπως υποδεικνύεται και από την σχετική βιβλιογραφία και αντίστοιχες έρευνες. This Thesis explores the potential of supervised machine learning for predicting mortality in sepsis patients in the ICU, leveraging timeseries clinical data from the publicly available eICU database. To convert the dataset into a time series format, we grouped the patient cases by unique ICU stay ID and extract the relevant features over a series of time windows. Each time window includes a set of engineered features for each observation that falls within the window, such as the average, maximum and minimum values, as well as the standard deviation and the moving average. The length of each time window is set to 3 hours. To predict mortality due to sepsis, we use a random forest classifier as our prediction model. The random forest algorithm is well-suited for our dataset, as it can handle a large number of features and can capture complex, non-linear relationships between the features and the target variable of mortality. In order to train the random forest classifier, we first split the dataset into a training set and a testing set, with a 80/20 split. To evaluate the performance of the random forest classifier, we use a stratified user-based cross-validation approach with 5-fold cross-validation. This approach allows us to evaluate the performance of the model on a per ICU stay basis, while also ensuring that each patient is represented in both the training and testing sets. A number of different experiments have been conducted in order to build a robust model based on Random Forest classifier. The results of our study show that the use of a time series approach with multiple observations per patient in time windows can improve the accuracy of the prediction model for mortality due to sepsis. Specifically, we found that the random forest classifier achieved an accuracy of ROC curve (AUC-ROC) of 0,76, F1-score of 0,76, accuracy of 0,76, with a precision of 0,75 and a sensitivity of 0,75 on the testing dataset in our final experiment. The results show that the random forest algorithm is a suitable choice for mortality prediction in this patient population. The study highlights the importance of leveraging the time series of the records on the patient level and feature engineering techniques in improving the performance of the model, compared to single summary values per patient without time feature models. 2023-06-01T08:50:57Z 2023-06-01T08:50:57Z 2023-03-08 http://hdl.handle.net/11610/25349 en Αναφορά Δημιουργού - Παρόμοια Διανομή 4.0 Διεθνές http://creativecommons.org/licenses/by-sa/4.0/ 94 σ. application/pdf Σάμος
spellingShingle μηχανική μάθηση
ανάλυση δεδομένων
μοντέλα πρόβλεψης
machine learning
data analytics
predictive modelling
health data
eICU Data Base
random forest classifier
Machine learning.
Mortality -- Forecasting
Σταυρόπουλος, Λεωνίδας
Εφαρμογή μοντέλου μηχανικής μάθησης για την πρόβλεψη θνητότητας λόγω σηψαιμίας σε πραγματικά δεδομένα ασθενών από Μονάδες Εντατικής Θεραπείας
title Εφαρμογή μοντέλου μηχανικής μάθησης για την πρόβλεψη θνητότητας λόγω σηψαιμίας σε πραγματικά δεδομένα ασθενών από Μονάδες Εντατικής Θεραπείας
title_full Εφαρμογή μοντέλου μηχανικής μάθησης για την πρόβλεψη θνητότητας λόγω σηψαιμίας σε πραγματικά δεδομένα ασθενών από Μονάδες Εντατικής Θεραπείας
title_fullStr Εφαρμογή μοντέλου μηχανικής μάθησης για την πρόβλεψη θνητότητας λόγω σηψαιμίας σε πραγματικά δεδομένα ασθενών από Μονάδες Εντατικής Θεραπείας
title_full_unstemmed Εφαρμογή μοντέλου μηχανικής μάθησης για την πρόβλεψη θνητότητας λόγω σηψαιμίας σε πραγματικά δεδομένα ασθενών από Μονάδες Εντατικής Θεραπείας
title_short Εφαρμογή μοντέλου μηχανικής μάθησης για την πρόβλεψη θνητότητας λόγω σηψαιμίας σε πραγματικά δεδομένα ασθενών από Μονάδες Εντατικής Θεραπείας
title_sort εφαρμογή μοντέλου μηχανικής μάθησης για την πρόβλεψη θνητότητας λόγω σηψαιμίας σε πραγματικά δεδομένα ασθενών από μονάδες εντατικής θεραπείας
topic μηχανική μάθηση
ανάλυση δεδομένων
μοντέλα πρόβλεψης
machine learning
data analytics
predictive modelling
health data
eICU Data Base
random forest classifier
Machine learning.
Mortality -- Forecasting
url http://hdl.handle.net/11610/25349
work_keys_str_mv AT stauropoulosleōnidas epharmogēmonteloumēchanikēsmathēsēsgiatēnproblepsēthnētotētaslogōsēpsaimiassepragmatikadedomenaasthenōnapomonadesentatikēstherapeias