Αναγνώριση μη-έγκυρης πληροφορίας σχετικά με τη πανδημία του κορονοϊού Covid-19 σε πλατφόρμα κοινωνικής δικτύωσης

Στην παρούσα Εργασία μελετάται η αυτόματη ανίχνευση μη έγκυρων ειδήσεων, που σχετίζονται με την εξελισσόμενη πανδημία του κορονoϊού στα κοινωνικά δίκτυα και συγκεκριμένα στο Twitter. Για το σκοπό αυτό αξιοποιούνται αλγόριθμοι Επεξεργασίας Φυσικής Γλώσσας (NLP) και Μηχανικής Μάθησης. Τα δεδομένα με τ...

Πλήρης περιγραφή

Αποθηκεύτηκε σε:
Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Λυγερός, Γεώργιος
Άλλοι συγγραφείς: Κωστούλας, Θεόδωρος
Γλώσσα:el_GR
Δημοσίευση: 2022
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/11610/23050
Ετικέτες: Προσθήκη ετικέτας
Δεν υπάρχουν, Καταχωρήστε ετικέτα πρώτοι!
_version_ 1828461787423440896
author Λυγερός, Γεώργιος
author2 Κωστούλας, Θεόδωρος
author_facet Κωστούλας, Θεόδωρος
Λυγερός, Γεώργιος
author_sort Λυγερός, Γεώργιος
collection DSpace
description Στην παρούσα Εργασία μελετάται η αυτόματη ανίχνευση μη έγκυρων ειδήσεων, που σχετίζονται με την εξελισσόμενη πανδημία του κορονoϊού στα κοινωνικά δίκτυα και συγκεκριμένα στο Twitter. Για το σκοπό αυτό αξιοποιούνται αλγόριθμοι Επεξεργασίας Φυσικής Γλώσσας (NLP) και Μηχανικής Μάθησης. Τα δεδομένα με τα οποία γίνεται η εκπαίδευση των αλγορίθμων προέρχονται από ένα δημόσια προσβάσιμο σύνολο δεδομένων το οποίο περιέχει tweets που σχετίζονται με την τρέχουσα πανδημία. Από το σύνολο των δεδομένων απομονώθηκε μόνο το περιεχόμενο που αφορά την ελληνική γλώσσα. Τα tweets αυτά διακρίθηκαν και χαρακτηρίστηκαν σε τρεις κατηγορίες, αληθή, άσχετα ή ψευδή. Αφού χαρακτηρίστηκε ένας επαρκής αριθμός από δεδομένα στη συνέχεια για κάθε κατηγορία οπτικοποιούνται οι πιο χαρακτηριστικές λέξεις σε νέφη λέξεων (Puds). Επιπλέον, εξάγεται από αυτά ένα σύνολο από γλωσσικά μορφολογικά χαρακτηριστικά, εφαρμόζοντας μεθόδους μετατροπής των κειμένων σε διανύσματα, καθώς και χαρακτηριστικά σχετικά με την υποκειμενικότητα των κειμένων. Επιπλέον χαρακτηριστικά υπολογίζονται με τη χρήση της μεθόδου TF-IDF τα οποία χρησιμοποιούνται σε συνδυασμό με τα μορφολογικά χαρακτηριστικά. Για τον υπολογισμό των χαρακτηριστικών αυτών αξιοποιούνται βιβλιοθήκες της Python όπως η NLTK, spaCy και Scikit-Learn. Πριν τα χαρακτηριστικά αυτά εισαχθούν στους αλγορίθμους μάθησης εφαρμόζεται PCA για τη μείωση των διαστάσεων. Εκπαιδεύονται τρεις αλγόριθμοι μάθησης, ο Random Forest, o SVM και ο Multinomial Naive Bayes, εκ των οποίων ο Random Forest έχει τα πιο ενθαρρυντικά αποτελέσματα. Τα αποτελέσματά μας αποδεικνύουν ότι είναι εφικτή η αυτόματη ανίχνευση μη έγκυρης πληροφορίας σε δημοσιεύσεις στο Twitter παρά τις ιδιαιτερότητες που χαρακτηρίζουν την ελληνική γλώσσα.
id oai:hellanicus.lib.aegean.gr:11610-23050
institution Hellanicus
language el_GR
publishDate 2022
record_format dspace
spelling oai:hellanicus.lib.aegean.gr:11610-230502022-02-11T16:18:50Z Αναγνώριση μη-έγκυρης πληροφορίας σχετικά με τη πανδημία του κορονοϊού Covid-19 σε πλατφόρμα κοινωνικής δικτύωσης Λυγερός, Γεώργιος Κωστούλας, Θεόδωρος Πληροφοριακά και Επικοινωνιακά Συστήματα feature engineering COVID-19 machine learning μηχανική μάθηση ανίχνευση ψευδών ειδήσεων κατηγοριοποίηση δεδομένων Machine learning COVID-19 (Disease) Twitter Fake news Στην παρούσα Εργασία μελετάται η αυτόματη ανίχνευση μη έγκυρων ειδήσεων, που σχετίζονται με την εξελισσόμενη πανδημία του κορονoϊού στα κοινωνικά δίκτυα και συγκεκριμένα στο Twitter. Για το σκοπό αυτό αξιοποιούνται αλγόριθμοι Επεξεργασίας Φυσικής Γλώσσας (NLP) και Μηχανικής Μάθησης. Τα δεδομένα με τα οποία γίνεται η εκπαίδευση των αλγορίθμων προέρχονται από ένα δημόσια προσβάσιμο σύνολο δεδομένων το οποίο περιέχει tweets που σχετίζονται με την τρέχουσα πανδημία. Από το σύνολο των δεδομένων απομονώθηκε μόνο το περιεχόμενο που αφορά την ελληνική γλώσσα. Τα tweets αυτά διακρίθηκαν και χαρακτηρίστηκαν σε τρεις κατηγορίες, αληθή, άσχετα ή ψευδή. Αφού χαρακτηρίστηκε ένας επαρκής αριθμός από δεδομένα στη συνέχεια για κάθε κατηγορία οπτικοποιούνται οι πιο χαρακτηριστικές λέξεις σε νέφη λέξεων (Puds). Επιπλέον, εξάγεται από αυτά ένα σύνολο από γλωσσικά μορφολογικά χαρακτηριστικά, εφαρμόζοντας μεθόδους μετατροπής των κειμένων σε διανύσματα, καθώς και χαρακτηριστικά σχετικά με την υποκειμενικότητα των κειμένων. Επιπλέον χαρακτηριστικά υπολογίζονται με τη χρήση της μεθόδου TF-IDF τα οποία χρησιμοποιούνται σε συνδυασμό με τα μορφολογικά χαρακτηριστικά. Για τον υπολογισμό των χαρακτηριστικών αυτών αξιοποιούνται βιβλιοθήκες της Python όπως η NLTK, spaCy και Scikit-Learn. Πριν τα χαρακτηριστικά αυτά εισαχθούν στους αλγορίθμους μάθησης εφαρμόζεται PCA για τη μείωση των διαστάσεων. Εκπαιδεύονται τρεις αλγόριθμοι μάθησης, ο Random Forest, o SVM και ο Multinomial Naive Bayes, εκ των οποίων ο Random Forest έχει τα πιο ενθαρρυντικά αποτελέσματα. Τα αποτελέσματά μας αποδεικνύουν ότι είναι εφικτή η αυτόματη ανίχνευση μη έγκυρης πληροφορίας σε δημοσιεύσεις στο Twitter παρά τις ιδιαιτερότητες που χαρακτηρίζουν την ελληνική γλώσσα. 2022-02-10T13:33:31Z 2022-02-10T13:33:31Z 2021-03-11 http://hdl.handle.net/11610/23050 el_GR Default License 62 σ. application/pdf Σάμος
spellingShingle feature engineering
COVID-19
machine learning
μηχανική μάθηση
ανίχνευση ψευδών ειδήσεων
κατηγοριοποίηση δεδομένων
Machine learning
COVID-19 (Disease)
Twitter
Fake news
Λυγερός, Γεώργιος
Αναγνώριση μη-έγκυρης πληροφορίας σχετικά με τη πανδημία του κορονοϊού Covid-19 σε πλατφόρμα κοινωνικής δικτύωσης
title Αναγνώριση μη-έγκυρης πληροφορίας σχετικά με τη πανδημία του κορονοϊού Covid-19 σε πλατφόρμα κοινωνικής δικτύωσης
title_full Αναγνώριση μη-έγκυρης πληροφορίας σχετικά με τη πανδημία του κορονοϊού Covid-19 σε πλατφόρμα κοινωνικής δικτύωσης
title_fullStr Αναγνώριση μη-έγκυρης πληροφορίας σχετικά με τη πανδημία του κορονοϊού Covid-19 σε πλατφόρμα κοινωνικής δικτύωσης
title_full_unstemmed Αναγνώριση μη-έγκυρης πληροφορίας σχετικά με τη πανδημία του κορονοϊού Covid-19 σε πλατφόρμα κοινωνικής δικτύωσης
title_short Αναγνώριση μη-έγκυρης πληροφορίας σχετικά με τη πανδημία του κορονοϊού Covid-19 σε πλατφόρμα κοινωνικής δικτύωσης
title_sort αναγνώριση μη έγκυρης πληροφορίας σχετικά με τη πανδημία του κορονοϊού covid 19 σε πλατφόρμα κοινωνικής δικτύωσης
topic feature engineering
COVID-19
machine learning
μηχανική μάθηση
ανίχνευση ψευδών ειδήσεων
κατηγοριοποίηση δεδομένων
Machine learning
COVID-19 (Disease)
Twitter
Fake news
url http://hdl.handle.net/11610/23050
work_keys_str_mv AT lygerosgeōrgios anagnōrisēmēenkyrēsplērophoriasschetikametēpandēmiatoukoronoïoucovid19seplatphormakoinōnikēsdiktyōsēs