Ανάλυση κύριων συνιστωσών (PCA, OPLS-DA MODELS): εφαρμογές στην βιοπληροφορική

Η PCA είναι μια μέθοδος υψηλής πρακτικής σημασίας σε πολλές εφαρμογές στατιστικής συμπερασματολογίας, ιδίως όταν αντιμετωπίζεται το πρόβλημα της συσχέτισης πολλών ανεξάρτητων μεταβλητών με πολλές εξαρτημένες μεταβλητές αποτελέσματα χωρίς αρκετές παρατηρήσεις για την αξιόπιστη εκτέλεση της ανάλυσης....

Full description

Saved in:
Bibliographic Details
Main Author: Γιουβάνης, Δημήτριος
Other Authors: Ζήμερας, Στέλιος
Language:English
Published: 2024
Subjects:
Online Access:http://hdl.handle.net/11610/26137
Tags: Add Tag
No Tags, Be the first to tag this record!
_version_ 1828460846304460800
author Γιουβάνης, Δημήτριος
author2 Ζήμερας, Στέλιος
author_facet Ζήμερας, Στέλιος
Γιουβάνης, Δημήτριος
author_sort Γιουβάνης, Δημήτριος
collection DSpace
description Η PCA είναι μια μέθοδος υψηλής πρακτικής σημασίας σε πολλές εφαρμογές στατιστικής συμπερασματολογίας, ιδίως όταν αντιμετωπίζεται το πρόβλημα της συσχέτισης πολλών ανεξάρτητων μεταβλητών με πολλές εξαρτημένες μεταβλητές αποτελέσματα χωρίς αρκετές παρατηρήσεις για την αξιόπιστη εκτέλεση της ανάλυσης. Σε τέτοιες περιπτώσεις, σπάνια υπάρχει αρκετά δεδομένα για την εξαγωγή αξιόπιστων συμπερασμάτων λόγω του μεγάλου αριθμού των μεταβλητών πρόβλεψης. Το μέθοδος PCA αντιμετωπίζει αυτό το πρόβλημα αναθέτοντας τους αρχικούς προγνωστικούς παράγοντες σε ένα σύνολο νέων μεταβλητών γνωστές ως κύριες συνιστώσες. Ένας τέτοιος μετασχηματισμός συνοδεύεται συνήθως από απώλεια πληροφορία. Η ανάλυση κύριων συνιστωσών έχει εφαρμογές σε πολλούς τομείς, όπως η πληθυσμιακή γενετική, μελέτες μικροβιώματος και ατμοσφαιρική επιστήμη. Στην παρούσα εργασία χρησιμοποιούμε την ανάλυση κύριων συνιστωσών για να αναλύσουμε ορισμένα γονίδια για το αν είναι ορυκτά ή όχι και αν είναι συμβιωτικά ή όχι. Στην συνέχεια χρυσημοποιήσαμε την OPLS-DA εξηγώντας γιατί εξηγεί και οπτικοποιεί καλύτερα την συσχέτηση που έχουν τα δεδομένα μας. Η OPLS είναι μια μοντελοποίηση παλινδρόμησης πολλαπλών εξαρτημένων μεταβλητών σε πολλαπλές ανεξάρτητες μεταβλητές. Το μεγαλύτερο χαρακτηριστικό της είναι ότι μπορεί να αφαιρέσει τη διακύμανση των δεδομένων που δεν έχει καμία σχέση με τις κατηγορικές μεταβλητές, έτσι ώστε να οι κατηγορικές πληροφορίες συγκεντρώνονται κυρίως σε μία κύρια συνιστώσα. Ως εκ τούτου, το μοντέλο είναι απλό και εύκολο να εξηγηθεί, και το αποτέλεσμα διάκρισης και το αποτέλεσμα οπτικοποίησης του χάρτη βαθμολογίας κύριας συνιστώσας είναι πιο εμφανή. Το OPLS προήλθε από το PLS και αποτελεί ειδική περίπτωση προβλημάτων του PLS. Η διαφορά μεταξύ της OPLS και της PLS είναι ότι η ανάλυση κρυμμένων συνιστωσών στην OPLS εφαρμόζεται μόνο στους προγνωστικούς μεταβλητές, ενώ η PLS εργάζεται από κοινού τόσο στις μεταβλητές πρόβλεψης όσο και στις μεταβλητές απόκρισης. Έτσι, μόνο εξάγονται τα διανύσματα προβολής από τις μεταβλητές πρόβλεψης. Όπως η παλινδρόμηση PLS και η PLS-DA, η OPLS αναπτύσσει επίσης δύο εκδόσεις. Η μία είναι η παλινδρόμηση OPLS και η άλλη είναι η OPLS-DA για προβλήματα ταξινόμησης.
id oai:hellanicus.lib.aegean.gr:11610-26137
institution Hellanicus
language English
publishDate 2024
record_format dspace
spelling oai:hellanicus.lib.aegean.gr:11610-261372025-03-13T09:49:38Z Ανάλυση κύριων συνιστωσών (PCA, OPLS-DA MODELS): εφαρμογές στην βιοπληροφορική Γιουβάνης, Δημήτριος Ζήμερας, Στέλιος ανάλυση κύριων συνιστωσών γονιδιακή έκφραση ορθογωνοποιημένα μερικά ελάχιστα τετράγωνα principal componet analysis gene expression orthogonal partial least squares Principal components analysis Bioinformatics Gene expression Η PCA είναι μια μέθοδος υψηλής πρακτικής σημασίας σε πολλές εφαρμογές στατιστικής συμπερασματολογίας, ιδίως όταν αντιμετωπίζεται το πρόβλημα της συσχέτισης πολλών ανεξάρτητων μεταβλητών με πολλές εξαρτημένες μεταβλητές αποτελέσματα χωρίς αρκετές παρατηρήσεις για την αξιόπιστη εκτέλεση της ανάλυσης. Σε τέτοιες περιπτώσεις, σπάνια υπάρχει αρκετά δεδομένα για την εξαγωγή αξιόπιστων συμπερασμάτων λόγω του μεγάλου αριθμού των μεταβλητών πρόβλεψης. Το μέθοδος PCA αντιμετωπίζει αυτό το πρόβλημα αναθέτοντας τους αρχικούς προγνωστικούς παράγοντες σε ένα σύνολο νέων μεταβλητών γνωστές ως κύριες συνιστώσες. Ένας τέτοιος μετασχηματισμός συνοδεύεται συνήθως από απώλεια πληροφορία. Η ανάλυση κύριων συνιστωσών έχει εφαρμογές σε πολλούς τομείς, όπως η πληθυσμιακή γενετική, μελέτες μικροβιώματος και ατμοσφαιρική επιστήμη. Στην παρούσα εργασία χρησιμοποιούμε την ανάλυση κύριων συνιστωσών για να αναλύσουμε ορισμένα γονίδια για το αν είναι ορυκτά ή όχι και αν είναι συμβιωτικά ή όχι. Στην συνέχεια χρυσημοποιήσαμε την OPLS-DA εξηγώντας γιατί εξηγεί και οπτικοποιεί καλύτερα την συσχέτηση που έχουν τα δεδομένα μας. Η OPLS είναι μια μοντελοποίηση παλινδρόμησης πολλαπλών εξαρτημένων μεταβλητών σε πολλαπλές ανεξάρτητες μεταβλητές. Το μεγαλύτερο χαρακτηριστικό της είναι ότι μπορεί να αφαιρέσει τη διακύμανση των δεδομένων που δεν έχει καμία σχέση με τις κατηγορικές μεταβλητές, έτσι ώστε να οι κατηγορικές πληροφορίες συγκεντρώνονται κυρίως σε μία κύρια συνιστώσα. Ως εκ τούτου, το μοντέλο είναι απλό και εύκολο να εξηγηθεί, και το αποτέλεσμα διάκρισης και το αποτέλεσμα οπτικοποίησης του χάρτη βαθμολογίας κύριας συνιστώσας είναι πιο εμφανή. Το OPLS προήλθε από το PLS και αποτελεί ειδική περίπτωση προβλημάτων του PLS. Η διαφορά μεταξύ της OPLS και της PLS είναι ότι η ανάλυση κρυμμένων συνιστωσών στην OPLS εφαρμόζεται μόνο στους προγνωστικούς μεταβλητές, ενώ η PLS εργάζεται από κοινού τόσο στις μεταβλητές πρόβλεψης όσο και στις μεταβλητές απόκρισης. Έτσι, μόνο εξάγονται τα διανύσματα προβολής από τις μεταβλητές πρόβλεψης. Όπως η παλινδρόμηση PLS και η PLS-DA, η OPLS αναπτύσσει επίσης δύο εκδόσεις. Η μία είναι η παλινδρόμηση OPLS και η άλλη είναι η OPLS-DA για προβλήματα ταξινόμησης. 2024-02-05T11:54:30Z 2024-02-05T11:54:30Z 2023-06-15 http://hdl.handle.net/11610/26137 en Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές https://creativecommons.org/licenses/by-nc-sa/4.0/ 71 σ. application/pdf Σάμος
spellingShingle ανάλυση κύριων συνιστωσών
γονιδιακή έκφραση
ορθογωνοποιημένα μερικά ελάχιστα τετράγωνα
principal componet analysis
gene expression
orthogonal partial least squares
Principal components analysis
Bioinformatics
Gene expression
Γιουβάνης, Δημήτριος
Ανάλυση κύριων συνιστωσών (PCA, OPLS-DA MODELS): εφαρμογές στην βιοπληροφορική
title Ανάλυση κύριων συνιστωσών (PCA, OPLS-DA MODELS): εφαρμογές στην βιοπληροφορική
title_full Ανάλυση κύριων συνιστωσών (PCA, OPLS-DA MODELS): εφαρμογές στην βιοπληροφορική
title_fullStr Ανάλυση κύριων συνιστωσών (PCA, OPLS-DA MODELS): εφαρμογές στην βιοπληροφορική
title_full_unstemmed Ανάλυση κύριων συνιστωσών (PCA, OPLS-DA MODELS): εφαρμογές στην βιοπληροφορική
title_short Ανάλυση κύριων συνιστωσών (PCA, OPLS-DA MODELS): εφαρμογές στην βιοπληροφορική
title_sort ανάλυση κύριων συνιστωσών pca opls da models εφαρμογές στην βιοπληροφορική
topic ανάλυση κύριων συνιστωσών
γονιδιακή έκφραση
ορθογωνοποιημένα μερικά ελάχιστα τετράγωνα
principal componet analysis
gene expression
orthogonal partial least squares
Principal components analysis
Bioinformatics
Gene expression
url http://hdl.handle.net/11610/26137
work_keys_str_mv AT gioubanēsdēmētrios analysēkyriōnsynistōsōnpcaoplsdamodelsepharmogesstēnbioplērophorikē