Δια – τομεακή αναγνώριση γένους συγγραφέα
Η συγκεκριμένη εργασία πραγματεύεται την αναγνώριση του προφίλ συγγραφέα (Author Profiling) μέσα από μια διαδικασία αναπαράστασης εγγράφου (Document Representation) και χρήσης αλγορίθμων Μηχανικής Μάθησης (Machine Learning). Στόχος της είναι η ταξινόμηση των συγγραφέων ως προς το φύλο τους, εξετάζο...
Αποθηκεύτηκε σε:
| Κύριος συγγραφέας: | |
|---|---|
| Άλλοι συγγραφείς: | |
| Γλώσσα: | el_GR |
| Δημοσίευση: |
2023
|
| Θέματα: | |
| Διαθέσιμο Online: | http://hdl.handle.net/11610/24959 |
| Ετικέτες: |
Προσθήκη ετικέτας
Δεν υπάρχουν, Καταχωρήστε ετικέτα πρώτοι!
|
| Περίληψη: | Η συγκεκριμένη εργασία πραγματεύεται την αναγνώριση του προφίλ συγγραφέα (Author Profiling) μέσα από μια διαδικασία αναπαράστασης εγγράφου (Document Representation) και χρήσης αλγορίθμων Μηχανικής Μάθησης (Machine Learning).
Στόχος της είναι η ταξινόμηση των συγγραφέων ως προς το φύλο τους, εξετάζοντας παραλλαγές στη διαδικασία της αναπαράστασης του κειμένου.
Στο θεωρητικό μέρος της εργασίας, μελετώνται αρχικά κάποιες τεχνικές εξόρυξης γνώσης από έγγραφα (Text Mining), αναπαράστασης εγγράφου, καθώς και μετρικές αξιολόγησής τους. Παρατίθενται, επίσης, πληροφορίες για την φάση της
προεπεξεργασίας των δεδομένων που εξάγονται από τη διαδικασία της αναπαράστασης, ώστε να μετατραπούν στην κατάλληλη μορφή για την ταξινόμησή τους από κάποιον αλγόριθμο μηχανικής μάθησης. Ειδική αναφορά γίνεται στον όρο της μηχανικής μάθησης, στα είδη αυτής, όπως και σε ορισμένους σημαντικούς αλγορίθμους που κατατάσσονται σε αυτό το πεδίο. Στη συνέχεια, περιγράφεται ο όρος της ταξινόμησης εγγράφου (Text Classification), οι διαφορετικοί αλγόριθμοι
υλοποίησης και οι μετρικές αξιολόγησης. Τέλος, γίνεται λόγος για το θέμα της αναγνώρισης προφίλ συγγραφέα, για τις διάφορες εφαρμογές του, καθώς και για τη μελέτη του ζητήματος στο πλαίσιο του διαγωνισμού PAN.
Στο πειραματικό μέρος, εφαρμόζονται κάποιες από τις τεχνικές αναπαράστασης και ταξινόμησης κειμένου που αναφέρθηκαν για υλοποίηση συστήματος αναγνώρισης προφίλ συγγραφέα στη συλλογή δεδομένων CMCC Corpus. Η αναπαράσταση γίνεται σύμφωνα με τη θεωρία N – Gram, σε επίπεδο χαρακτήρων, λέξεων και συντακτικών όρων, για ένα εύρος αριθμών N. Η αναγνώριση του συγγραφικού προφίλ των
συγγραφέων με βάση το φύλο πραγματοποιείται με αλγόριθμο μηχανικής μάθησης και αποτελεί πρόβλημα ταξινόμησης σε 2 κλάσεις (Male – Αρσενικό, Female – Θηλυκό). |
|---|