Μέθοδοι Ομαδοποίησης Κειμένων με Βάση τη Συγγραφική Πατρότητα

Τα προηγούμενα χρόνια, η πλειοψηφία των ερευνών πάνω στην ανάλυση της πατρότητας των κειμένων επικεντρώθηκε στην επίλυση του προβλήματος της κατηγοριοποίησης των κειμένων βάσει του συγγραφικού τους ύφους, όταν είναι γνωστοί οι συγγραφείς εκείνων των κειμένων που θα αποτελούν την βάση της κατασκευής...

Πλήρης περιγραφή

Αποθηκεύτηκε σε:

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας:	Αρχοντής, Μιχάλης
Άλλοι συγγραφείς:	Σταματάτος, Ευστάθιος
Γλώσσα:	el_GR
Δημοσίευση:	2018
Θέματα:	Ομαδοποίηση συγγραφέα Μηχανική μάθηση Ανάλυση κειμένου Machine learning Text mining Authorship clustering Data mining (URL: http://id.loc.gov/authorities/subjects/sh97002073) Machine learning (URL: http://id.loc.gov/authorities/subjects/sh85079324) Authorship (URL: http://id.loc.gov/authorities/subjects/sh85010030)
Διαθέσιμο Online:	http://hdl.handle.net/11610/18349
Ετικέτες:	Προσθήκη ετικέτας Δεν υπάρχουν, Καταχωρήστε ετικέτα πρώτοι!

_version_	1828461185694957568
author	Αρχοντής, Μιχάλης
author2	Σταματάτος, Ευστάθιος
author_facet	Σταματάτος, Ευστάθιος Αρχοντής, Μιχάλης
author_sort	Αρχοντής, Μιχάλης
collection	DSpace
description	Τα προηγούμενα χρόνια, η πλειοψηφία των ερευνών πάνω στην ανάλυση της πατρότητας των κειμένων επικεντρώθηκε στην επίλυση του προβλήματος της κατηγοριοποίησης των κειμένων βάσει του συγγραφικού τους ύφους, όταν είναι γνωστοί οι συγγραφείς εκείνων των κειμένων που θα αποτελούν την βάση της κατασκευής ενός μοντέλου που θα είναι σε θέση να προβλέπει τον συγγραφέα ενός διαμαχόμενου κειμένου. Τα αποτελέσματα αυτών των ερευνών έδωσαν την δυνατότητα στην επιστημονική κοινότητα να ασχοληθεί με την επίλυση ενός πιο ρεαλιστικού προβλήματος, όπου η πληροφορία της πατρότητας των κειμένων που θα αποτελούν το σύνολο εκπαίδευσης του προβλεπτικού μοντέλου δεν είναι γνωστή.Η πλειοψηφία των ερευνών για την επίλυση και των δύο παραπάνω προβλημάτων χρησιμοποιεί μεθόδους δανειζόμενες από τους τομείς της Ανάκτησης Πληροφοριών και της Μηχανικής Μάθησης, καθιστώντας τες ως κυρίαρχα ερευνητικά εργαλεία της εξόρυξης γνώσης από τα κείμενα.Η παρούσα εργασία, προσπαθεί να προβάλει αυτά τα εργαλεία και προτείνει μία μέθοδο για την επίλυση του δύσκολου προβλήματος της ομαδοποίησης συγγραφέα, κάνοντας χρήση την εξαγωγή θεμάτων συγγραφικού ύφους από τα κείμενα, μέσω των μεθόδων LDA και LSI, και χρησιμοποιεί ως αλγόριθμο συσταδοποίησης το ελάχιστο επικαλυπτόμενο δέντρο. Η δημιουργία του μοντέλου βασίστηκε στα δεδομένα εκπαίδευσης των διαγωνισμών PAN 2016 και PAN 2017, ενώ η αξιολόγησή του πραγματοποιήθηκε στα δεδομένα αξιολόγησης των ίδιων διαγωνισμών.
id	oai:hellanicus.lib.aegean.gr:11610-18349
institution	Hellanicus
language	el_GR
publishDate	2018
record_format	dspace
spelling	oai:hellanicus.lib.aegean.gr:11610-183492018-04-30T07:00:46Z Μέθοδοι Ομαδοποίησης Κειμένων με Βάση τη Συγγραφική Πατρότητα Αρχοντής, Μιχάλης Σταματάτος, Ευστάθιος Πληροφοριακά και Επικοινωνιακά Συστήματα Ομαδοποίηση συγγραφέα Μηχανική μάθηση Ανάλυση κειμένου Machine learning Text mining Authorship clustering Data mining (URL: http://id.loc.gov/authorities/subjects/sh97002073) Machine learning (URL: http://id.loc.gov/authorities/subjects/sh85079324) Authorship (URL: http://id.loc.gov/authorities/subjects/sh85010030) Τα προηγούμενα χρόνια, η πλειοψηφία των ερευνών πάνω στην ανάλυση της πατρότητας των κειμένων επικεντρώθηκε στην επίλυση του προβλήματος της κατηγοριοποίησης των κειμένων βάσει του συγγραφικού τους ύφους, όταν είναι γνωστοί οι συγγραφείς εκείνων των κειμένων που θα αποτελούν την βάση της κατασκευής ενός μοντέλου που θα είναι σε θέση να προβλέπει τον συγγραφέα ενός διαμαχόμενου κειμένου. Τα αποτελέσματα αυτών των ερευνών έδωσαν την δυνατότητα στην επιστημονική κοινότητα να ασχοληθεί με την επίλυση ενός πιο ρεαλιστικού προβλήματος, όπου η πληροφορία της πατρότητας των κειμένων που θα αποτελούν το σύνολο εκπαίδευσης του προβλεπτικού μοντέλου δεν είναι γνωστή.Η πλειοψηφία των ερευνών για την επίλυση και των δύο παραπάνω προβλημάτων χρησιμοποιεί μεθόδους δανειζόμενες από τους τομείς της Ανάκτησης Πληροφοριών και της Μηχανικής Μάθησης, καθιστώντας τες ως κυρίαρχα ερευνητικά εργαλεία της εξόρυξης γνώσης από τα κείμενα.Η παρούσα εργασία, προσπαθεί να προβάλει αυτά τα εργαλεία και προτείνει μία μέθοδο για την επίλυση του δύσκολου προβλήματος της ομαδοποίησης συγγραφέα, κάνοντας χρήση την εξαγωγή θεμάτων συγγραφικού ύφους από τα κείμενα, μέσω των μεθόδων LDA και LSI, και χρησιμοποιεί ως αλγόριθμο συσταδοποίησης το ελάχιστο επικαλυπτόμενο δέντρο. Η δημιουργία του μοντέλου βασίστηκε στα δεδομένα εκπαίδευσης των διαγωνισμών PAN 2016 και PAN 2017, ενώ η αξιολόγησή του πραγματοποιήθηκε στα δεδομένα αξιολόγησης των ίδιων διαγωνισμών. 2018-04-20T12:10:31Z 2018-04-20T12:10:31Z 2018-01-18 http://hdl.handle.net/11610/18349 el_GR Default License 110 σ. application/pdf Σάμος
spellingShingle	Ομαδοποίηση συγγραφέα Μηχανική μάθηση Ανάλυση κειμένου Machine learning Text mining Authorship clustering Data mining (URL: http://id.loc.gov/authorities/subjects/sh97002073) Machine learning (URL: http://id.loc.gov/authorities/subjects/sh85079324) Authorship (URL: http://id.loc.gov/authorities/subjects/sh85010030) Αρχοντής, Μιχάλης Μέθοδοι Ομαδοποίησης Κειμένων με Βάση τη Συγγραφική Πατρότητα
title	Μέθοδοι Ομαδοποίησης Κειμένων με Βάση τη Συγγραφική Πατρότητα
title_full	Μέθοδοι Ομαδοποίησης Κειμένων με Βάση τη Συγγραφική Πατρότητα
title_fullStr	Μέθοδοι Ομαδοποίησης Κειμένων με Βάση τη Συγγραφική Πατρότητα
title_full_unstemmed	Μέθοδοι Ομαδοποίησης Κειμένων με Βάση τη Συγγραφική Πατρότητα
title_short	Μέθοδοι Ομαδοποίησης Κειμένων με Βάση τη Συγγραφική Πατρότητα
title_sort	μέθοδοι ομαδοποίησης κειμένων με βάση τη συγγραφική πατρότητα
topic	Ομαδοποίηση συγγραφέα Μηχανική μάθηση Ανάλυση κειμένου Machine learning Text mining Authorship clustering Data mining (URL: http://id.loc.gov/authorities/subjects/sh97002073) Machine learning (URL: http://id.loc.gov/authorities/subjects/sh85079324) Authorship (URL: http://id.loc.gov/authorities/subjects/sh85010030)
url	http://hdl.handle.net/11610/18349
work_keys_str_mv	AT archontēsmichalēs methodoiomadopoiēsēskeimenōnmebasētēsyngraphikēpatrotēta

Μέθοδοι Ομαδοποίησης Κειμένων με Βάση τη Συγγραφική Πατρότητα

Παρόμοια τεκμήρια