Μέθοδοι Ομαδοποίησης Κειμένων με Βάση τη Συγγραφική Πατρότητα

Τα προηγούμενα χρόνια, η πλειοψηφία των ερευνών πάνω στην ανάλυση της πατρότητας των κειμένων επικεντρώθηκε στην επίλυση του προβλήματος της κατηγοριοποίησης των κειμένων βάσει του συγγραφικού τους ύφους, όταν είναι γνωστοί οι συγγραφείς εκείνων των κειμένων που θα αποτελούν την βάση της κατασκευής...

Full description

Saved in:
Bibliographic Details
Main Author: Αρχοντής, Μιχάλης
Other Authors: Σταματάτος, Ευστάθιος
Language:el_GR
Published: 2018
Subjects:
Online Access:http://hdl.handle.net/11610/18349
Tags: Add Tag
No Tags, Be the first to tag this record!
Description
Summary:Τα προηγούμενα χρόνια, η πλειοψηφία των ερευνών πάνω στην ανάλυση της πατρότητας των κειμένων επικεντρώθηκε στην επίλυση του προβλήματος της κατηγοριοποίησης των κειμένων βάσει του συγγραφικού τους ύφους, όταν είναι γνωστοί οι συγγραφείς εκείνων των κειμένων που θα αποτελούν την βάση της κατασκευής ενός μοντέλου που θα είναι σε θέση να προβλέπει τον συγγραφέα ενός διαμαχόμενου κειμένου. Τα αποτελέσματα αυτών των ερευνών έδωσαν την δυνατότητα στην επιστημονική κοινότητα να ασχοληθεί με την επίλυση ενός πιο ρεαλιστικού προβλήματος, όπου η πληροφορία της πατρότητας των κειμένων που θα αποτελούν το σύνολο εκπαίδευσης του προβλεπτικού μοντέλου δεν είναι γνωστή.Η πλειοψηφία των ερευνών για την επίλυση και των δύο παραπάνω προβλημάτων χρησιμοποιεί μεθόδους δανειζόμενες από τους τομείς της Ανάκτησης Πληροφοριών και της Μηχανικής Μάθησης, καθιστώντας τες ως κυρίαρχα ερευνητικά εργαλεία της εξόρυξης γνώσης από τα κείμενα.Η παρούσα εργασία, προσπαθεί να προβάλει αυτά τα εργαλεία και προτείνει μία μέθοδο για την επίλυση του δύσκολου προβλήματος της ομαδοποίησης συγγραφέα, κάνοντας χρήση την εξαγωγή θεμάτων συγγραφικού ύφους από τα κείμενα, μέσω των μεθόδων LDA και LSI, και χρησιμοποιεί ως αλγόριθμο συσταδοποίησης το ελάχιστο επικαλυπτόμενο δέντρο. Η δημιουργία του μοντέλου βασίστηκε στα δεδομένα εκπαίδευσης των διαγωνισμών PAN 2016 και PAN 2017, ενώ η αξιολόγησή του πραγματοποιήθηκε στα δεδομένα αξιολόγησης των ίδιων διαγωνισμών.