Μέθοδοι Ομαδοποίησης Κειμένων με Βάση τη Συγγραφική Πατρότητα

Τα προηγούμενα χρόνια, η πλειοψηφία των ερευνών πάνω στην ανάλυση της πατρότητας των κειμένων επικεντρώθηκε στην επίλυση του προβλήματος της κατηγοριοποίησης των κειμένων βάσει του συγγραφικού τους ύφους, όταν είναι γνωστοί οι συγγραφείς εκείνων των κειμένων που θα αποτελούν την βάση της κατασκευής...

Πλήρης περιγραφή

Αποθηκεύτηκε σε:
Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Αρχοντής, Μιχάλης
Άλλοι συγγραφείς: Σταματάτος, Ευστάθιος
Γλώσσα:el_GR
Δημοσίευση: 2018
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/11610/18349
Ετικέτες: Προσθήκη ετικέτας
Δεν υπάρχουν, Καταχωρήστε ετικέτα πρώτοι!
_version_ 1828461185694957568
author Αρχοντής, Μιχάλης
author2 Σταματάτος, Ευστάθιος
author_facet Σταματάτος, Ευστάθιος
Αρχοντής, Μιχάλης
author_sort Αρχοντής, Μιχάλης
collection DSpace
description Τα προηγούμενα χρόνια, η πλειοψηφία των ερευνών πάνω στην ανάλυση της πατρότητας των κειμένων επικεντρώθηκε στην επίλυση του προβλήματος της κατηγοριοποίησης των κειμένων βάσει του συγγραφικού τους ύφους, όταν είναι γνωστοί οι συγγραφείς εκείνων των κειμένων που θα αποτελούν την βάση της κατασκευής ενός μοντέλου που θα είναι σε θέση να προβλέπει τον συγγραφέα ενός διαμαχόμενου κειμένου. Τα αποτελέσματα αυτών των ερευνών έδωσαν την δυνατότητα στην επιστημονική κοινότητα να ασχοληθεί με την επίλυση ενός πιο ρεαλιστικού προβλήματος, όπου η πληροφορία της πατρότητας των κειμένων που θα αποτελούν το σύνολο εκπαίδευσης του προβλεπτικού μοντέλου δεν είναι γνωστή.Η πλειοψηφία των ερευνών για την επίλυση και των δύο παραπάνω προβλημάτων χρησιμοποιεί μεθόδους δανειζόμενες από τους τομείς της Ανάκτησης Πληροφοριών και της Μηχανικής Μάθησης, καθιστώντας τες ως κυρίαρχα ερευνητικά εργαλεία της εξόρυξης γνώσης από τα κείμενα.Η παρούσα εργασία, προσπαθεί να προβάλει αυτά τα εργαλεία και προτείνει μία μέθοδο για την επίλυση του δύσκολου προβλήματος της ομαδοποίησης συγγραφέα, κάνοντας χρήση την εξαγωγή θεμάτων συγγραφικού ύφους από τα κείμενα, μέσω των μεθόδων LDA και LSI, και χρησιμοποιεί ως αλγόριθμο συσταδοποίησης το ελάχιστο επικαλυπτόμενο δέντρο. Η δημιουργία του μοντέλου βασίστηκε στα δεδομένα εκπαίδευσης των διαγωνισμών PAN 2016 και PAN 2017, ενώ η αξιολόγησή του πραγματοποιήθηκε στα δεδομένα αξιολόγησης των ίδιων διαγωνισμών.
id oai:hellanicus.lib.aegean.gr:11610-18349
institution Hellanicus
language el_GR
publishDate 2018
record_format dspace
spelling oai:hellanicus.lib.aegean.gr:11610-183492018-04-30T07:00:46Z Μέθοδοι Ομαδοποίησης Κειμένων με Βάση τη Συγγραφική Πατρότητα Αρχοντής, Μιχάλης Σταματάτος, Ευστάθιος Πληροφοριακά και Επικοινωνιακά Συστήματα Ομαδοποίηση συγγραφέα Μηχανική μάθηση Ανάλυση κειμένου Machine learning Text mining Authorship clustering Data mining (URL: http://id.loc.gov/authorities/subjects/sh97002073) Machine learning (URL: http://id.loc.gov/authorities/subjects/sh85079324) Authorship (URL: http://id.loc.gov/authorities/subjects/sh85010030) Τα προηγούμενα χρόνια, η πλειοψηφία των ερευνών πάνω στην ανάλυση της πατρότητας των κειμένων επικεντρώθηκε στην επίλυση του προβλήματος της κατηγοριοποίησης των κειμένων βάσει του συγγραφικού τους ύφους, όταν είναι γνωστοί οι συγγραφείς εκείνων των κειμένων που θα αποτελούν την βάση της κατασκευής ενός μοντέλου που θα είναι σε θέση να προβλέπει τον συγγραφέα ενός διαμαχόμενου κειμένου. Τα αποτελέσματα αυτών των ερευνών έδωσαν την δυνατότητα στην επιστημονική κοινότητα να ασχοληθεί με την επίλυση ενός πιο ρεαλιστικού προβλήματος, όπου η πληροφορία της πατρότητας των κειμένων που θα αποτελούν το σύνολο εκπαίδευσης του προβλεπτικού μοντέλου δεν είναι γνωστή.Η πλειοψηφία των ερευνών για την επίλυση και των δύο παραπάνω προβλημάτων χρησιμοποιεί μεθόδους δανειζόμενες από τους τομείς της Ανάκτησης Πληροφοριών και της Μηχανικής Μάθησης, καθιστώντας τες ως κυρίαρχα ερευνητικά εργαλεία της εξόρυξης γνώσης από τα κείμενα.Η παρούσα εργασία, προσπαθεί να προβάλει αυτά τα εργαλεία και προτείνει μία μέθοδο για την επίλυση του δύσκολου προβλήματος της ομαδοποίησης συγγραφέα, κάνοντας χρήση την εξαγωγή θεμάτων συγγραφικού ύφους από τα κείμενα, μέσω των μεθόδων LDA και LSI, και χρησιμοποιεί ως αλγόριθμο συσταδοποίησης το ελάχιστο επικαλυπτόμενο δέντρο. Η δημιουργία του μοντέλου βασίστηκε στα δεδομένα εκπαίδευσης των διαγωνισμών PAN 2016 και PAN 2017, ενώ η αξιολόγησή του πραγματοποιήθηκε στα δεδομένα αξιολόγησης των ίδιων διαγωνισμών. 2018-04-20T12:10:31Z 2018-04-20T12:10:31Z 2018-01-18 http://hdl.handle.net/11610/18349 el_GR Default License 110 σ. application/pdf Σάμος
spellingShingle Ομαδοποίηση συγγραφέα
Μηχανική μάθηση
Ανάλυση κειμένου
Machine learning
Text mining
Authorship clustering
Data mining (URL: http://id.loc.gov/authorities/subjects/sh97002073)
Machine learning (URL: http://id.loc.gov/authorities/subjects/sh85079324)
Authorship (URL: http://id.loc.gov/authorities/subjects/sh85010030)
Αρχοντής, Μιχάλης
Μέθοδοι Ομαδοποίησης Κειμένων με Βάση τη Συγγραφική Πατρότητα
title Μέθοδοι Ομαδοποίησης Κειμένων με Βάση τη Συγγραφική Πατρότητα
title_full Μέθοδοι Ομαδοποίησης Κειμένων με Βάση τη Συγγραφική Πατρότητα
title_fullStr Μέθοδοι Ομαδοποίησης Κειμένων με Βάση τη Συγγραφική Πατρότητα
title_full_unstemmed Μέθοδοι Ομαδοποίησης Κειμένων με Βάση τη Συγγραφική Πατρότητα
title_short Μέθοδοι Ομαδοποίησης Κειμένων με Βάση τη Συγγραφική Πατρότητα
title_sort μέθοδοι ομαδοποίησης κειμένων με βάση τη συγγραφική πατρότητα
topic Ομαδοποίηση συγγραφέα
Μηχανική μάθηση
Ανάλυση κειμένου
Machine learning
Text mining
Authorship clustering
Data mining (URL: http://id.loc.gov/authorities/subjects/sh97002073)
Machine learning (URL: http://id.loc.gov/authorities/subjects/sh85079324)
Authorship (URL: http://id.loc.gov/authorities/subjects/sh85010030)
url http://hdl.handle.net/11610/18349
work_keys_str_mv AT archontēsmichalēs methodoiomadopoiēsēskeimenōnmebasētēsyngraphikēpatrotēta