Αναγνώριση μη-έγκυρης πληροφορίας σχετικά με τη πανδημία του κορονοϊού Covid-19 σε πλατφόρμα κοινωνικής δικτύωσης

Στην παρούσα Εργασία μελετάται η αυτόματη ανίχνευση μη έγκυρων ειδήσεων, που σχετίζονται με την εξελισσόμενη πανδημία του κορονoϊού στα κοινωνικά δίκτυα και συγκεκριμένα στο Twitter. Για το σκοπό αυτό αξιοποιούνται αλγόριθμοι Επεξεργασίας Φυσικής Γλώσσας (NLP) και Μηχανικής Μάθησης. Τα δεδομένα με τ...

Full description

Saved in:
Bibliographic Details
Main Author: Λυγερός, Γεώργιος
Other Authors: Κωστούλας, Θεόδωρος
Language:el_GR
Published: 2022
Subjects:
Online Access:http://hdl.handle.net/11610/23050
Tags: Add Tag
No Tags, Be the first to tag this record!
Description
Summary:Στην παρούσα Εργασία μελετάται η αυτόματη ανίχνευση μη έγκυρων ειδήσεων, που σχετίζονται με την εξελισσόμενη πανδημία του κορονoϊού στα κοινωνικά δίκτυα και συγκεκριμένα στο Twitter. Για το σκοπό αυτό αξιοποιούνται αλγόριθμοι Επεξεργασίας Φυσικής Γλώσσας (NLP) και Μηχανικής Μάθησης. Τα δεδομένα με τα οποία γίνεται η εκπαίδευση των αλγορίθμων προέρχονται από ένα δημόσια προσβάσιμο σύνολο δεδομένων το οποίο περιέχει tweets που σχετίζονται με την τρέχουσα πανδημία. Από το σύνολο των δεδομένων απομονώθηκε μόνο το περιεχόμενο που αφορά την ελληνική γλώσσα. Τα tweets αυτά διακρίθηκαν και χαρακτηρίστηκαν σε τρεις κατηγορίες, αληθή, άσχετα ή ψευδή. Αφού χαρακτηρίστηκε ένας επαρκής αριθμός από δεδομένα στη συνέχεια για κάθε κατηγορία οπτικοποιούνται οι πιο χαρακτηριστικές λέξεις σε νέφη λέξεων (Puds). Επιπλέον, εξάγεται από αυτά ένα σύνολο από γλωσσικά μορφολογικά χαρακτηριστικά, εφαρμόζοντας μεθόδους μετατροπής των κειμένων σε διανύσματα, καθώς και χαρακτηριστικά σχετικά με την υποκειμενικότητα των κειμένων. Επιπλέον χαρακτηριστικά υπολογίζονται με τη χρήση της μεθόδου TF-IDF τα οποία χρησιμοποιούνται σε συνδυασμό με τα μορφολογικά χαρακτηριστικά. Για τον υπολογισμό των χαρακτηριστικών αυτών αξιοποιούνται βιβλιοθήκες της Python όπως η NLTK, spaCy και Scikit-Learn. Πριν τα χαρακτηριστικά αυτά εισαχθούν στους αλγορίθμους μάθησης εφαρμόζεται PCA για τη μείωση των διαστάσεων. Εκπαιδεύονται τρεις αλγόριθμοι μάθησης, ο Random Forest, o SVM και ο Multinomial Naive Bayes, εκ των οποίων ο Random Forest έχει τα πιο ενθαρρυντικά αποτελέσματα. Τα αποτελέσματά μας αποδεικνύουν ότι είναι εφικτή η αυτόματη ανίχνευση μη έγκυρης πληροφορίας σε δημοσιεύσεις στο Twitter παρά τις ιδιαιτερότητες που χαρακτηρίζουν την ελληνική γλώσσα.