Θεματική ομαδοποίηση αναρτήσεων σε κοινωνικά δίκτυα

Στα πλαίσια της συγκεκριμένης διπλωματικής εργασίας έχει επιλεγεί ο δημοφιλέστερος ιστόποτοπος tης Ρωσίας για την ανάδειξη του τουριστικού ενδιαφέροντος ως προς την Ελλάδα. Έχει διαπιστωθεί πως το VK αποτελεί έναν σύγχρονο τρόπο επικοινωνίας και ανταλλαγής απόψεων σε μία μεγάλη και ισχυρή χώρα όπως...

Πλήρης περιγραφή

Αποθηκεύτηκε σε:
Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Ίβκοβα, Τίνα
Άλλοι συγγραφείς: Αμπαζής, Νικόλαος
Γλώσσα:el_GR
Δημοσίευση: 2019
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/11610/18638
Ετικέτες: Προσθήκη ετικέτας
Δεν υπάρχουν, Καταχωρήστε ετικέτα πρώτοι!
_version_ 1828461193498460160
author Ίβκοβα, Τίνα
author2 Αμπαζής, Νικόλαος
author_facet Αμπαζής, Νικόλαος
Ίβκοβα, Τίνα
author_sort Ίβκοβα, Τίνα
collection DSpace
description Στα πλαίσια της συγκεκριμένης διπλωματικής εργασίας έχει επιλεγεί ο δημοφιλέστερος ιστόποτοπος tης Ρωσίας για την ανάδειξη του τουριστικού ενδιαφέροντος ως προς την Ελλάδα. Έχει διαπιστωθεί πως το VK αποτελεί έναν σύγχρονο τρόπο επικοινωνίας και ανταλλαγής απόψεων σε μία μεγάλη και ισχυρή χώρα όπως η Ρωσία. Για την λήψη των επιθυμητών δεδομένων έγινε έρευνα των σχετικών ως προς την Ελλάδα ομάδων στο VK για την μετέπειτα επιλογή των πιο πολυσύχναστων σελίδων. Τα δεδομένα αντλούνται με την βοήθεια κατάλληλων μεθόδων του API που προσφέρει το VK και στην συνέχεια δημιουργούν ένα πίνακα που περιέχει το εξεταζόμενο corpus. Οι γραμμές του πίνακα αποτελούνται από δημοσιεύσεις και σχόλια που έχουν αναρτηθεί από τους χρήστες αυτών των σελίδων. Έπειτα ακολουθεί η διαδικασία της μαθηματικής αναπαράστασης των κειμένων, έτσι ώστε να είναι εφικτή η θεματική τους ομαδοποίηση. Η διαδικασία μετατροπής των κειμένων σε διανύσματα πραγματοποιείται με την κατανεμημένη αναπαράσταση της φυσικής γλώσσας, στο τέλος της οποίας οι λέξεις αντιστοιχούν σε τέτοια σημεία του διανυσματικού χώρου, ώστε οι αποστάσεις μεταξύ των σημείων αυτών να αντικατοπτρίζουν την σημασιολογική σχέση μεταξύ τους. Δηλαδή, στο τέλος της διαδικασίας, είναι δυνατόν να προσθαφαιρούνται οι λέξεις, ενώ σαν αποτέλεσμα της πράξης προκύπτει μια λίστα από τις πιο σχετικές λέξεις. Η κατανεμημένη αναπαράσταση στην επεξεργασία της φυσικής γλώσσας επιτυγχάνεται με δύο αλγόριθμους: Word2vec και Doc2vec. Ο πρώτος μετασχηματίζει την κάθε λέξη σε διάνυσμα με τέτοιο τρόπο, ώστε τα σημεία που αντιστοιχούν στις λέξεις με όμοιες έννοιες να βρίσκονται κοντά, ενώ τα διανύσματα των λέξεων που δεν έχουν σχέση μεταξύ τους, να απέχουν πιο πολύ. Έτσι οι αποστάσεις στον διανυσματικό χώρο αντικατοπτρίζουν τις συσχετίσεις των λέξεων. Από την άλλη, ο αλγόριθμος Doc2vec, πραγματοποιεί την ανάθεση διανυσμάτων όχι μόνο στις λέξεις, αλλά και στο ίδιο το κείμενο, αυξάνοντας κατά αυτόν τον τρόπο και άλλο την εγκυρότητα των αποτελεσμάτων. Αφού ομαδοποιηθούν τα δεδομένα, μπορεί να γίνει διαχώρισμός των θεμάτων που εμπεριέχονται στις ομάδες που έχουν προκύψει. Στα πειραματικά αποτελέσματα διακρίνονται τα θέματα που απασχολούν τους ρωσόφωνους χρήστες του κοινωνικού δικτύου και τι συζητιέται πιο συχνά, όπως οι τουριστικές προτιμήσεις, οι πολιτικές εξελίξεις ή τα θρησκευτικά αξιοθέατα.
id oai:hellanicus.lib.aegean.gr:11610-18638
institution Hellanicus
language el_GR
publishDate 2019
record_format dspace
spelling oai:hellanicus.lib.aegean.gr:11610-186382019-07-03T09:20:26Z Θεματική ομαδοποίηση αναρτήσεων σε κοινωνικά δίκτυα Ίβκοβα, Τίνα Αμπαζής, Νικόλαος κατανεμημένη αναπαράσταση επεξεργασία φυσικής γλώσσας ομαδοποίηση VK API Word2vec Doc2vec LDA K-Means grouping distributed representation Educational grouping (URL: http://skos.um.es/unescothes/C01239) REPRESENTATION (URL: http://data.seab.gr/concepts/2a2c33639e85827d5e9f6715d52e68e63de1aa05) Regional organizations (URL: http://skos.um.es/unescothes/C03317) Στα πλαίσια της συγκεκριμένης διπλωματικής εργασίας έχει επιλεγεί ο δημοφιλέστερος ιστόποτοπος tης Ρωσίας για την ανάδειξη του τουριστικού ενδιαφέροντος ως προς την Ελλάδα. Έχει διαπιστωθεί πως το VK αποτελεί έναν σύγχρονο τρόπο επικοινωνίας και ανταλλαγής απόψεων σε μία μεγάλη και ισχυρή χώρα όπως η Ρωσία. Για την λήψη των επιθυμητών δεδομένων έγινε έρευνα των σχετικών ως προς την Ελλάδα ομάδων στο VK για την μετέπειτα επιλογή των πιο πολυσύχναστων σελίδων. Τα δεδομένα αντλούνται με την βοήθεια κατάλληλων μεθόδων του API που προσφέρει το VK και στην συνέχεια δημιουργούν ένα πίνακα που περιέχει το εξεταζόμενο corpus. Οι γραμμές του πίνακα αποτελούνται από δημοσιεύσεις και σχόλια που έχουν αναρτηθεί από τους χρήστες αυτών των σελίδων. Έπειτα ακολουθεί η διαδικασία της μαθηματικής αναπαράστασης των κειμένων, έτσι ώστε να είναι εφικτή η θεματική τους ομαδοποίηση. Η διαδικασία μετατροπής των κειμένων σε διανύσματα πραγματοποιείται με την κατανεμημένη αναπαράσταση της φυσικής γλώσσας, στο τέλος της οποίας οι λέξεις αντιστοιχούν σε τέτοια σημεία του διανυσματικού χώρου, ώστε οι αποστάσεις μεταξύ των σημείων αυτών να αντικατοπτρίζουν την σημασιολογική σχέση μεταξύ τους. Δηλαδή, στο τέλος της διαδικασίας, είναι δυνατόν να προσθαφαιρούνται οι λέξεις, ενώ σαν αποτέλεσμα της πράξης προκύπτει μια λίστα από τις πιο σχετικές λέξεις. Η κατανεμημένη αναπαράσταση στην επεξεργασία της φυσικής γλώσσας επιτυγχάνεται με δύο αλγόριθμους: Word2vec και Doc2vec. Ο πρώτος μετασχηματίζει την κάθε λέξη σε διάνυσμα με τέτοιο τρόπο, ώστε τα σημεία που αντιστοιχούν στις λέξεις με όμοιες έννοιες να βρίσκονται κοντά, ενώ τα διανύσματα των λέξεων που δεν έχουν σχέση μεταξύ τους, να απέχουν πιο πολύ. Έτσι οι αποστάσεις στον διανυσματικό χώρο αντικατοπτρίζουν τις συσχετίσεις των λέξεων. Από την άλλη, ο αλγόριθμος Doc2vec, πραγματοποιεί την ανάθεση διανυσμάτων όχι μόνο στις λέξεις, αλλά και στο ίδιο το κείμενο, αυξάνοντας κατά αυτόν τον τρόπο και άλλο την εγκυρότητα των αποτελεσμάτων. Αφού ομαδοποιηθούν τα δεδομένα, μπορεί να γίνει διαχώρισμός των θεμάτων που εμπεριέχονται στις ομάδες που έχουν προκύψει. Στα πειραματικά αποτελέσματα διακρίνονται τα θέματα που απασχολούν τους ρωσόφωνους χρήστες του κοινωνικού δικτύου και τι συζητιέται πιο συχνά, όπως οι τουριστικές προτιμήσεις, οι πολιτικές εξελίξεις ή τα θρησκευτικά αξιοθέατα. Social media have been integrated into most people’s lives, thus they’ve become powerful information providers. In the current diploma thesis we’ve chosen the most popular Russian website (VK) to analyze the Russian visitors’ interest for Greece. It’s been known that «Vkontakte» is a major hub of communication and exchange of opinion in Russia. In order to select the data the most relevant VK pages related to Greece were identified. After the gathering of data by API methods was created a matrix which contained the whole vocabulary. The rows of matrix consisted of the post’s texts, so that clustering would be possible through a numerical representation of texts. The process of text representation as a fixed-length vector was achieved by distributed representation of the natural language, at the end of which, the words were mapped in a vector space in such a way, so as that the semantic meaning of words, was correlated with the distance between the vectors. For example after a model was trained, the words could be treated with simple vector algebra, as if they were numbers and the result was an output list of similar words. The distributed representation of the natural language processing utilized two algorithms: Word2vec and Doc2vec. The first algorithm converts each word to a vector so that the words with similar meaning are close to each other in the vector space, while other words are more distant. Thus the distances in vector space reflect the semantics of words. Doc2vec algorithm is an extension of Word2vec, where paragraphs are treated as words. As soon as the documents have been converted into a numerical representation, clustering or classification is possible. Since the posts that have been selected have no labels, clustering (e.g. with k-means) is the only possible choice. Each cluster can then be segregated into several topics which can identify. The interests of Russian users in topics like politics or religion landmarks, and others. 2019-05-29T07:08:09Z 2019-05-29T07:08:09Z 2017 http://hdl.handle.net/11610/18638 el_GR Default License 65 σ. application/pdf Χίος
spellingShingle κατανεμημένη αναπαράσταση
επεξεργασία φυσικής γλώσσας
ομαδοποίηση
VK
API
Word2vec
Doc2vec
LDA
K-Means
grouping
distributed representation
Educational grouping (URL: http://skos.um.es/unescothes/C01239)
REPRESENTATION (URL: http://data.seab.gr/concepts/2a2c33639e85827d5e9f6715d52e68e63de1aa05)
Regional organizations (URL: http://skos.um.es/unescothes/C03317)
Ίβκοβα, Τίνα
Θεματική ομαδοποίηση αναρτήσεων σε κοινωνικά δίκτυα
title Θεματική ομαδοποίηση αναρτήσεων σε κοινωνικά δίκτυα
title_full Θεματική ομαδοποίηση αναρτήσεων σε κοινωνικά δίκτυα
title_fullStr Θεματική ομαδοποίηση αναρτήσεων σε κοινωνικά δίκτυα
title_full_unstemmed Θεματική ομαδοποίηση αναρτήσεων σε κοινωνικά δίκτυα
title_short Θεματική ομαδοποίηση αναρτήσεων σε κοινωνικά δίκτυα
title_sort θεματική ομαδοποίηση αναρτήσεων σε κοινωνικά δίκτυα
topic κατανεμημένη αναπαράσταση
επεξεργασία φυσικής γλώσσας
ομαδοποίηση
VK
API
Word2vec
Doc2vec
LDA
K-Means
grouping
distributed representation
Educational grouping (URL: http://skos.um.es/unescothes/C01239)
REPRESENTATION (URL: http://data.seab.gr/concepts/2a2c33639e85827d5e9f6715d52e68e63de1aa05)
Regional organizations (URL: http://skos.um.es/unescothes/C03317)
url http://hdl.handle.net/11610/18638
work_keys_str_mv AT ibkobatina thematikēomadopoiēsēanartēseōnsekoinōnikadiktya