| _version_ |
1828462661217550336
|
| author |
Παναγούλιας, Κωνσταντίνος
|
| author2 |
Σταματάτος, Ευστάθιος
|
| author_facet |
Σταματάτος, Ευστάθιος
Παναγούλιας, Κωνσταντίνος
|
| author_sort |
Παναγούλιας, Κωνσταντίνος
|
| collection |
DSpace
|
| description |
Η συγκεκριμένη εργασία πραγματεύεται την αναγνώριση του προφίλ συγγραφέα (Author Profiling) μέσα από μια διαδικασία αναπαράστασης εγγράφου (Document Representation) και χρήσης αλγορίθμων Μηχανικής Μάθησης (Machine Learning).
Στόχος της είναι η ταξινόμηση των συγγραφέων ως προς το φύλο τους, εξετάζοντας παραλλαγές στη διαδικασία της αναπαράστασης του κειμένου.
Στο θεωρητικό μέρος της εργασίας, μελετώνται αρχικά κάποιες τεχνικές εξόρυξης γνώσης από έγγραφα (Text Mining), αναπαράστασης εγγράφου, καθώς και μετρικές αξιολόγησής τους. Παρατίθενται, επίσης, πληροφορίες για την φάση της
προεπεξεργασίας των δεδομένων που εξάγονται από τη διαδικασία της αναπαράστασης, ώστε να μετατραπούν στην κατάλληλη μορφή για την ταξινόμησή τους από κάποιον αλγόριθμο μηχανικής μάθησης. Ειδική αναφορά γίνεται στον όρο της μηχανικής μάθησης, στα είδη αυτής, όπως και σε ορισμένους σημαντικούς αλγορίθμους που κατατάσσονται σε αυτό το πεδίο. Στη συνέχεια, περιγράφεται ο όρος της ταξινόμησης εγγράφου (Text Classification), οι διαφορετικοί αλγόριθμοι
υλοποίησης και οι μετρικές αξιολόγησης. Τέλος, γίνεται λόγος για το θέμα της αναγνώρισης προφίλ συγγραφέα, για τις διάφορες εφαρμογές του, καθώς και για τη μελέτη του ζητήματος στο πλαίσιο του διαγωνισμού PAN.
Στο πειραματικό μέρος, εφαρμόζονται κάποιες από τις τεχνικές αναπαράστασης και ταξινόμησης κειμένου που αναφέρθηκαν για υλοποίηση συστήματος αναγνώρισης προφίλ συγγραφέα στη συλλογή δεδομένων CMCC Corpus. Η αναπαράσταση γίνεται σύμφωνα με τη θεωρία N – Gram, σε επίπεδο χαρακτήρων, λέξεων και συντακτικών όρων, για ένα εύρος αριθμών N. Η αναγνώριση του συγγραφικού προφίλ των
συγγραφέων με βάση το φύλο πραγματοποιείται με αλγόριθμο μηχανικής μάθησης και αποτελεί πρόβλημα ταξινόμησης σε 2 κλάσεις (Male – Αρσενικό, Female – Θηλυκό).
|
| id |
oai:hellanicus.lib.aegean.gr:11610-24959
|
| institution |
Hellanicus
|
| language |
el_GR
|
| publishDate |
2023
|
| record_format |
dspace
|
| spelling |
oai:hellanicus.lib.aegean.gr:11610-249592023-03-29T09:51:48Z Δια – τομεακή αναγνώριση γένους συγγραφέα Cross – domain author gender prediction Παναγούλιας, Κωνσταντίνος Σταματάτος, Ευστάθιος Πληροφοριακά και Επικοινωνιακά Συστήματα αναπαράσταση εγγράφων εξόρυξη εγγράφων ταξινόμηση εγγράφων μηχανική μάθηση θεωρία N – gram αναγνώριση προφίλ συγγραφέα document representation text mining text classification machine learning n – Gram theory author profiling Text data mining Machine learning Writing--Identification Η συγκεκριμένη εργασία πραγματεύεται την αναγνώριση του προφίλ συγγραφέα (Author Profiling) μέσα από μια διαδικασία αναπαράστασης εγγράφου (Document Representation) και χρήσης αλγορίθμων Μηχανικής Μάθησης (Machine Learning). Στόχος της είναι η ταξινόμηση των συγγραφέων ως προς το φύλο τους, εξετάζοντας παραλλαγές στη διαδικασία της αναπαράστασης του κειμένου. Στο θεωρητικό μέρος της εργασίας, μελετώνται αρχικά κάποιες τεχνικές εξόρυξης γνώσης από έγγραφα (Text Mining), αναπαράστασης εγγράφου, καθώς και μετρικές αξιολόγησής τους. Παρατίθενται, επίσης, πληροφορίες για την φάση της προεπεξεργασίας των δεδομένων που εξάγονται από τη διαδικασία της αναπαράστασης, ώστε να μετατραπούν στην κατάλληλη μορφή για την ταξινόμησή τους από κάποιον αλγόριθμο μηχανικής μάθησης. Ειδική αναφορά γίνεται στον όρο της μηχανικής μάθησης, στα είδη αυτής, όπως και σε ορισμένους σημαντικούς αλγορίθμους που κατατάσσονται σε αυτό το πεδίο. Στη συνέχεια, περιγράφεται ο όρος της ταξινόμησης εγγράφου (Text Classification), οι διαφορετικοί αλγόριθμοι υλοποίησης και οι μετρικές αξιολόγησης. Τέλος, γίνεται λόγος για το θέμα της αναγνώρισης προφίλ συγγραφέα, για τις διάφορες εφαρμογές του, καθώς και για τη μελέτη του ζητήματος στο πλαίσιο του διαγωνισμού PAN. Στο πειραματικό μέρος, εφαρμόζονται κάποιες από τις τεχνικές αναπαράστασης και ταξινόμησης κειμένου που αναφέρθηκαν για υλοποίηση συστήματος αναγνώρισης προφίλ συγγραφέα στη συλλογή δεδομένων CMCC Corpus. Η αναπαράσταση γίνεται σύμφωνα με τη θεωρία N – Gram, σε επίπεδο χαρακτήρων, λέξεων και συντακτικών όρων, για ένα εύρος αριθμών N. Η αναγνώριση του συγγραφικού προφίλ των συγγραφέων με βάση το φύλο πραγματοποιείται με αλγόριθμο μηχανικής μάθησης και αποτελεί πρόβλημα ταξινόμησης σε 2 κλάσεις (Male – Αρσενικό, Female – Θηλυκό). This thesis discusses the development of an Author Profiling model, utilising document representation and Machine Learning algorithms. The aim is to classify authors by their gender, while examining multiple variations of document representation. In the theoretical part of the thesis, text mining techniques are studied, along with document representation approaches and evaluation metrics. The preprocessing phase is also analysed, for the data extracted by the representation to be ultimately inserted into a Machine Learning classification algorithm. Then, the concept of Machine Learning, with its various subfields and some important algorithms, are thoroughly analysed. More focus is put specifically on text classification implementations of Machine Learning. Finally, the author profiling problem is presented, with its numerous applications and in the context of the PAN competition. In the experimental part, some of the forementioned document representation and text classification techniques are utilised to perform author profiling on the CMCC Corpus dataset. For document representation, the N – gram theory is implemented, on word, character, and syntactic terms, for a range of N. Author profiling with regard to the author's gender is performed by a Machine Learning algorithm, as a binary classification problem, the two classes being: M – Male, F – Female. 2023-03-22T12:54:22Z 2023-03-22T12:54:22Z 2022-06 http://hdl.handle.net/11610/24959 el_GR Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές http://creativecommons.org/licenses/by-nc-nd/4.0/ 146 σ. application/pdf Σάμος
|
| spellingShingle |
αναπαράσταση εγγράφων
εξόρυξη εγγράφων
ταξινόμηση εγγράφων
μηχανική μάθηση
θεωρία N – gram
αναγνώριση προφίλ συγγραφέα
document representation
text mining
text classification
machine learning
n – Gram theory
author profiling
Text data mining
Machine learning
Writing--Identification
Παναγούλιας, Κωνσταντίνος
Δια – τομεακή αναγνώριση γένους συγγραφέα
|
| title |
Δια – τομεακή αναγνώριση γένους συγγραφέα
|
| title_full |
Δια – τομεακή αναγνώριση γένους συγγραφέα
|
| title_fullStr |
Δια – τομεακή αναγνώριση γένους συγγραφέα
|
| title_full_unstemmed |
Δια – τομεακή αναγνώριση γένους συγγραφέα
|
| title_short |
Δια – τομεακή αναγνώριση γένους συγγραφέα
|
| title_sort |
δια τομεακή αναγνώριση γένους συγγραφέα
|
| topic |
αναπαράσταση εγγράφων
εξόρυξη εγγράφων
ταξινόμηση εγγράφων
μηχανική μάθηση
θεωρία N – gram
αναγνώριση προφίλ συγγραφέα
document representation
text mining
text classification
machine learning
n – Gram theory
author profiling
Text data mining
Machine learning
Writing--Identification
|
| url |
http://hdl.handle.net/11610/24959
|
| work_keys_str_mv |
AT panagouliaskōnstantinos diatomeakēanagnōrisēgenoussyngraphea
AT panagouliaskōnstantinos crossdomainauthorgenderprediction
|