Αναγνώριση μη-έγκυρης πληροφορίας σχετικά με τη πανδημία του κορονοϊού Covid-19 σε πλατφόρμα κοινωνικής δικτύωσης
Στην παρούσα Εργασία μελετάται η αυτόματη ανίχνευση μη έγκυρων ειδήσεων, που σχετίζονται με την εξελισσόμενη πανδημία του κορονoϊού στα κοινωνικά δίκτυα και συγκεκριμένα στο Twitter. Για το σκοπό αυτό αξιοποιούνται αλγόριθμοι Επεξεργασίας Φυσικής Γλώσσας (NLP) και Μηχανικής Μάθησης. Τα δεδομένα με τ...
Αποθηκεύτηκε σε:
| Κύριος συγγραφέας: | |
|---|---|
| Άλλοι συγγραφείς: | |
| Γλώσσα: | el_GR |
| Δημοσίευση: |
2022
|
| Θέματα: | |
| Διαθέσιμο Online: | http://hdl.handle.net/11610/23050 |
| Ετικέτες: |
Προσθήκη ετικέτας
Δεν υπάρχουν, Καταχωρήστε ετικέτα πρώτοι!
|
| _version_ | 1828461787423440896 |
|---|---|
| author | Λυγερός, Γεώργιος |
| author2 | Κωστούλας, Θεόδωρος |
| author_sort | Λυγερός, Γεώργιος |
| collection | DSpace |
| description | Στην παρούσα Εργασία μελετάται η αυτόματη ανίχνευση μη έγκυρων ειδήσεων, που σχετίζονται με την εξελισσόμενη πανδημία του κορονoϊού στα κοινωνικά δίκτυα και συγκεκριμένα στο Twitter. Για το σκοπό αυτό αξιοποιούνται αλγόριθμοι Επεξεργασίας Φυσικής Γλώσσας (NLP) και Μηχανικής Μάθησης. Τα δεδομένα με τα οποία γίνεται η εκπαίδευση των αλγορίθμων προέρχονται από ένα δημόσια προσβάσιμο σύνολο δεδομένων το οποίο περιέχει tweets που σχετίζονται με την τρέχουσα πανδημία. Από το σύνολο των δεδομένων απομονώθηκε μόνο το περιεχόμενο που αφορά την ελληνική γλώσσα. Τα tweets αυτά διακρίθηκαν και χαρακτηρίστηκαν σε τρεις κατηγορίες, αληθή, άσχετα ή ψευδή. Αφού χαρακτηρίστηκε ένας επαρκής αριθμός από δεδομένα στη συνέχεια για κάθε κατηγορία οπτικοποιούνται οι πιο χαρακτηριστικές λέξεις σε νέφη λέξεων (Puds). Επιπλέον, εξάγεται από αυτά ένα σύνολο από γλωσσικά μορφολογικά χαρακτηριστικά, εφαρμόζοντας μεθόδους μετατροπής των κειμένων σε διανύσματα, καθώς και χαρακτηριστικά σχετικά με την υποκειμενικότητα των κειμένων. Επιπλέον χαρακτηριστικά υπολογίζονται με τη χρήση της μεθόδου TF-IDF τα οποία χρησιμοποιούνται σε συνδυασμό με τα μορφολογικά χαρακτηριστικά. Για τον υπολογισμό των χαρακτηριστικών αυτών αξιοποιούνται βιβλιοθήκες της Python όπως η NLTK, spaCy και Scikit-Learn. Πριν τα χαρακτηριστικά αυτά εισαχθούν στους αλγορίθμους μάθησης εφαρμόζεται PCA για τη μείωση των διαστάσεων. Εκπαιδεύονται τρεις αλγόριθμοι μάθησης, ο Random Forest, o SVM και ο Multinomial Naive Bayes, εκ των οποίων ο Random Forest έχει τα πιο ενθαρρυντικά αποτελέσματα. Τα αποτελέσματά μας αποδεικνύουν ότι είναι εφικτή η αυτόματη ανίχνευση μη έγκυρης πληροφορίας σε δημοσιεύσεις στο Twitter παρά τις ιδιαιτερότητες που χαρακτηρίζουν την ελληνική γλώσσα. |
| id | oai:hellanicus.lib.aegean.gr:11610-23050 |
| institution | Hellanicus |
| language | el_GR |
| publishDate | 2022 |
| record_format | dspace |
| title | Αναγνώριση μη-έγκυρης πληροφορίας σχετικά με τη πανδημία του κορονοϊού Covid-19 σε πλατφόρμα κοινωνικής δικτύωσης |
| topic | feature engineering COVID-19 machine learning μηχανική μάθηση ανίχνευση ψευδών ειδήσεων κατηγοριοποίηση δεδομένων Machine learning COVID-19 (Disease) Fake news |
| url | http://hdl.handle.net/11610/23050 |
| work_keys_str_mv | AT lygerosgeōrgios anagnōrisēmēenkyrēsplērophoriasschetikametēpandēmiatoukoronoïoucovid19seplatphormakoinōnikēsdiktyōsēs |