Θεματική ομαδοποίηση αναρτήσεων σε κοινωνικά δίκτυα
Στα πλαίσια της συγκεκριμένης διπλωματικής εργασίας έχει επιλεγεί ο δημοφιλέστερος ιστόποτοπος tης Ρωσίας για την ανάδειξη του τουριστικού ενδιαφέροντος ως προς την Ελλάδα. Έχει διαπιστωθεί πως το VK αποτελεί έναν σύγχρονο τρόπο επικοινωνίας και ανταλλαγής απόψεων σε μία μεγάλη και ισχυρή χώρα όπως...
Αποθηκεύτηκε σε:
| Κύριος συγγραφέας: | |
|---|---|
| Άλλοι συγγραφείς: | |
| Γλώσσα: | el_GR |
| Δημοσίευση: |
2019
|
| Θέματα: | |
| Διαθέσιμο Online: | http://hdl.handle.net/11610/18638 |
| Ετικέτες: |
Προσθήκη ετικέτας
Δεν υπάρχουν, Καταχωρήστε ετικέτα πρώτοι!
|
| Περίληψη: | Στα πλαίσια της συγκεκριμένης διπλωματικής εργασίας έχει επιλεγεί ο δημοφιλέστερος ιστόποτοπος tης Ρωσίας για την ανάδειξη του τουριστικού ενδιαφέροντος ως προς την Ελλάδα. Έχει διαπιστωθεί πως το VK αποτελεί έναν σύγχρονο τρόπο επικοινωνίας και ανταλλαγής απόψεων σε μία μεγάλη και ισχυρή χώρα όπως η Ρωσία.
Για την λήψη των επιθυμητών δεδομένων έγινε έρευνα των σχετικών ως προς την Ελλάδα ομάδων στο VK για την μετέπειτα επιλογή των πιο πολυσύχναστων σελίδων. Τα δεδομένα αντλούνται με την βοήθεια κατάλληλων μεθόδων του API που προσφέρει το VK και στην συνέχεια δημιουργούν ένα πίνακα που περιέχει το εξεταζόμενο corpus. Οι γραμμές του πίνακα αποτελούνται από δημοσιεύσεις και σχόλια που έχουν αναρτηθεί από τους χρήστες αυτών των σελίδων. Έπειτα ακολουθεί η διαδικασία της μαθηματικής αναπαράστασης των κειμένων, έτσι ώστε να είναι εφικτή η θεματική τους ομαδοποίηση.
Η διαδικασία μετατροπής των κειμένων σε διανύσματα πραγματοποιείται με την κατανεμημένη αναπαράσταση της φυσικής γλώσσας, στο τέλος της οποίας οι λέξεις αντιστοιχούν σε τέτοια σημεία του διανυσματικού χώρου, ώστε οι αποστάσεις μεταξύ των σημείων αυτών να αντικατοπτρίζουν την σημασιολογική σχέση μεταξύ τους. Δηλαδή, στο τέλος της διαδικασίας, είναι δυνατόν να προσθαφαιρούνται οι λέξεις, ενώ σαν αποτέλεσμα της πράξης προκύπτει μια λίστα από τις πιο σχετικές λέξεις.
Η κατανεμημένη αναπαράσταση στην επεξεργασία της φυσικής γλώσσας επιτυγχάνεται με δύο αλγόριθμους: Word2vec και Doc2vec. Ο πρώτος μετασχηματίζει την κάθε λέξη σε διάνυσμα με τέτοιο τρόπο, ώστε τα σημεία που αντιστοιχούν στις λέξεις με όμοιες έννοιες να βρίσκονται κοντά, ενώ τα διανύσματα των λέξεων που δεν έχουν σχέση μεταξύ τους, να απέχουν πιο πολύ. Έτσι οι αποστάσεις στον διανυσματικό χώρο αντικατοπτρίζουν τις συσχετίσεις των λέξεων. Από την άλλη, ο αλγόριθμος Doc2vec, πραγματοποιεί την ανάθεση διανυσμάτων όχι μόνο στις λέξεις, αλλά και στο ίδιο το κείμενο, αυξάνοντας κατά αυτόν τον τρόπο και άλλο την εγκυρότητα των αποτελεσμάτων.
Αφού ομαδοποιηθούν τα δεδομένα, μπορεί να γίνει διαχώρισμός των θεμάτων που εμπεριέχονται στις ομάδες που έχουν προκύψει. Στα πειραματικά αποτελέσματα διακρίνονται τα θέματα που απασχολούν τους ρωσόφωνους χρήστες του κοινωνικού δικτύου και τι συζητιέται πιο συχνά, όπως οι τουριστικές προτιμήσεις, οι πολιτικές εξελίξεις ή τα θρησκευτικά αξιοθέατα. |
|---|