Δια – τομεακή αναγνώριση γένους συγγραφέα

Η συγκεκριμένη εργασία πραγματεύεται την αναγνώριση του προφίλ συγγραφέα (Author Profiling) μέσα από μια διαδικασία αναπαράστασης εγγράφου (Document Representation) και χρήσης αλγορίθμων Μηχανικής Μάθησης (Machine Learning). Στόχος της είναι η ταξινόμηση των συγγραφέων ως προς το φύλο τους, εξετάζο...

Full description

Saved in:
Bibliographic Details
Main Author: Παναγούλιας, Κωνσταντίνος
Other Authors: Σταματάτος, Ευστάθιος
Language:el_GR
Published: 2023
Subjects:
Online Access:http://hdl.handle.net/11610/24959
Tags: Add Tag
No Tags, Be the first to tag this record!
_version_ 1828462661217550336
author Παναγούλιας, Κωνσταντίνος
author2 Σταματάτος, Ευστάθιος
author_facet Σταματάτος, Ευστάθιος
Παναγούλιας, Κωνσταντίνος
author_sort Παναγούλιας, Κωνσταντίνος
collection DSpace
description Η συγκεκριμένη εργασία πραγματεύεται την αναγνώριση του προφίλ συγγραφέα (Author Profiling) μέσα από μια διαδικασία αναπαράστασης εγγράφου (Document Representation) και χρήσης αλγορίθμων Μηχανικής Μάθησης (Machine Learning). Στόχος της είναι η ταξινόμηση των συγγραφέων ως προς το φύλο τους, εξετάζοντας παραλλαγές στη διαδικασία της αναπαράστασης του κειμένου. Στο θεωρητικό μέρος της εργασίας, μελετώνται αρχικά κάποιες τεχνικές εξόρυξης γνώσης από έγγραφα (Text Mining), αναπαράστασης εγγράφου, καθώς και μετρικές αξιολόγησής τους. Παρατίθενται, επίσης, πληροφορίες για την φάση της προεπεξεργασίας των δεδομένων που εξάγονται από τη διαδικασία της αναπαράστασης, ώστε να μετατραπούν στην κατάλληλη μορφή για την ταξινόμησή τους από κάποιον αλγόριθμο μηχανικής μάθησης. Ειδική αναφορά γίνεται στον όρο της μηχανικής μάθησης, στα είδη αυτής, όπως και σε ορισμένους σημαντικούς αλγορίθμους που κατατάσσονται σε αυτό το πεδίο. Στη συνέχεια, περιγράφεται ο όρος της ταξινόμησης εγγράφου (Text Classification), οι διαφορετικοί αλγόριθμοι υλοποίησης και οι μετρικές αξιολόγησης. Τέλος, γίνεται λόγος για το θέμα της αναγνώρισης προφίλ συγγραφέα, για τις διάφορες εφαρμογές του, καθώς και για τη μελέτη του ζητήματος στο πλαίσιο του διαγωνισμού PAN. Στο πειραματικό μέρος, εφαρμόζονται κάποιες από τις τεχνικές αναπαράστασης και ταξινόμησης κειμένου που αναφέρθηκαν για υλοποίηση συστήματος αναγνώρισης προφίλ συγγραφέα στη συλλογή δεδομένων CMCC Corpus. Η αναπαράσταση γίνεται σύμφωνα με τη θεωρία N – Gram, σε επίπεδο χαρακτήρων, λέξεων και συντακτικών όρων, για ένα εύρος αριθμών N. Η αναγνώριση του συγγραφικού προφίλ των συγγραφέων με βάση το φύλο πραγματοποιείται με αλγόριθμο μηχανικής μάθησης και αποτελεί πρόβλημα ταξινόμησης σε 2 κλάσεις (Male – Αρσενικό, Female – Θηλυκό).
id oai:hellanicus.lib.aegean.gr:11610-24959
institution Hellanicus
language el_GR
publishDate 2023
record_format dspace
spelling oai:hellanicus.lib.aegean.gr:11610-249592023-03-29T09:51:48Z Δια – τομεακή αναγνώριση γένους συγγραφέα Cross – domain author gender prediction Παναγούλιας, Κωνσταντίνος Σταματάτος, Ευστάθιος Πληροφοριακά και Επικοινωνιακά Συστήματα αναπαράσταση εγγράφων εξόρυξη εγγράφων ταξινόμηση εγγράφων μηχανική μάθηση θεωρία N – gram αναγνώριση προφίλ συγγραφέα document representation text mining text classification machine learning n – Gram theory author profiling Text data mining Machine learning Writing--Identification Η συγκεκριμένη εργασία πραγματεύεται την αναγνώριση του προφίλ συγγραφέα (Author Profiling) μέσα από μια διαδικασία αναπαράστασης εγγράφου (Document Representation) και χρήσης αλγορίθμων Μηχανικής Μάθησης (Machine Learning). Στόχος της είναι η ταξινόμηση των συγγραφέων ως προς το φύλο τους, εξετάζοντας παραλλαγές στη διαδικασία της αναπαράστασης του κειμένου. Στο θεωρητικό μέρος της εργασίας, μελετώνται αρχικά κάποιες τεχνικές εξόρυξης γνώσης από έγγραφα (Text Mining), αναπαράστασης εγγράφου, καθώς και μετρικές αξιολόγησής τους. Παρατίθενται, επίσης, πληροφορίες για την φάση της προεπεξεργασίας των δεδομένων που εξάγονται από τη διαδικασία της αναπαράστασης, ώστε να μετατραπούν στην κατάλληλη μορφή για την ταξινόμησή τους από κάποιον αλγόριθμο μηχανικής μάθησης. Ειδική αναφορά γίνεται στον όρο της μηχανικής μάθησης, στα είδη αυτής, όπως και σε ορισμένους σημαντικούς αλγορίθμους που κατατάσσονται σε αυτό το πεδίο. Στη συνέχεια, περιγράφεται ο όρος της ταξινόμησης εγγράφου (Text Classification), οι διαφορετικοί αλγόριθμοι υλοποίησης και οι μετρικές αξιολόγησης. Τέλος, γίνεται λόγος για το θέμα της αναγνώρισης προφίλ συγγραφέα, για τις διάφορες εφαρμογές του, καθώς και για τη μελέτη του ζητήματος στο πλαίσιο του διαγωνισμού PAN. Στο πειραματικό μέρος, εφαρμόζονται κάποιες από τις τεχνικές αναπαράστασης και ταξινόμησης κειμένου που αναφέρθηκαν για υλοποίηση συστήματος αναγνώρισης προφίλ συγγραφέα στη συλλογή δεδομένων CMCC Corpus. Η αναπαράσταση γίνεται σύμφωνα με τη θεωρία N – Gram, σε επίπεδο χαρακτήρων, λέξεων και συντακτικών όρων, για ένα εύρος αριθμών N. Η αναγνώριση του συγγραφικού προφίλ των συγγραφέων με βάση το φύλο πραγματοποιείται με αλγόριθμο μηχανικής μάθησης και αποτελεί πρόβλημα ταξινόμησης σε 2 κλάσεις (Male – Αρσενικό, Female – Θηλυκό). This thesis discusses the development of an Author Profiling model, utilising document representation and Machine Learning algorithms. The aim is to classify authors by their gender, while examining multiple variations of document representation. In the theoretical part of the thesis, text mining techniques are studied, along with document representation approaches and evaluation metrics. The preprocessing phase is also analysed, for the data extracted by the representation to be ultimately inserted into a Machine Learning classification algorithm. Then, the concept of Machine Learning, with its various subfields and some important algorithms, are thoroughly analysed. More focus is put specifically on text classification implementations of Machine Learning. Finally, the author profiling problem is presented, with its numerous applications and in the context of the PAN competition. In the experimental part, some of the forementioned document representation and text classification techniques are utilised to perform author profiling on the CMCC Corpus dataset. For document representation, the N – gram theory is implemented, on word, character, and syntactic terms, for a range of N. Author profiling with regard to the author's gender is performed by a Machine Learning algorithm, as a binary classification problem, the two classes being: M – Male, F – Female. 2023-03-22T12:54:22Z 2023-03-22T12:54:22Z 2022-06 http://hdl.handle.net/11610/24959 el_GR Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές http://creativecommons.org/licenses/by-nc-nd/4.0/ 146 σ. application/pdf Σάμος
spellingShingle αναπαράσταση εγγράφων
εξόρυξη εγγράφων
ταξινόμηση εγγράφων
μηχανική μάθηση
θεωρία N – gram
αναγνώριση προφίλ συγγραφέα
document representation
text mining
text classification
machine learning
n – Gram theory
author profiling
Text data mining
Machine learning
Writing--Identification
Παναγούλιας, Κωνσταντίνος
Δια – τομεακή αναγνώριση γένους συγγραφέα
title Δια – τομεακή αναγνώριση γένους συγγραφέα
title_full Δια – τομεακή αναγνώριση γένους συγγραφέα
title_fullStr Δια – τομεακή αναγνώριση γένους συγγραφέα
title_full_unstemmed Δια – τομεακή αναγνώριση γένους συγγραφέα
title_short Δια – τομεακή αναγνώριση γένους συγγραφέα
title_sort δια τομεακή αναγνώριση γένους συγγραφέα
topic αναπαράσταση εγγράφων
εξόρυξη εγγράφων
ταξινόμηση εγγράφων
μηχανική μάθηση
θεωρία N – gram
αναγνώριση προφίλ συγγραφέα
document representation
text mining
text classification
machine learning
n – Gram theory
author profiling
Text data mining
Machine learning
Writing--Identification
url http://hdl.handle.net/11610/24959
work_keys_str_mv AT panagouliaskōnstantinos diatomeakēanagnōrisēgenoussyngraphea
AT panagouliaskōnstantinos crossdomainauthorgenderprediction