Χρονολόγηση κειμένων

Η εργασία ασχολείται με το πρόβλημα της χρονολόγησης κειμένων και της αλλαγής της γλώσσας στην πάροδο του χρόνου, τόσο υφολογικά όσο και στον τρόπο γραφής. Με το πέρασμα των χρόνων οι αλλαγές είναι όλο και περισσότερες. Όσο περισσότερο αλλάζουν οι κοινωνίες και οι άνθρωποι, τόσο μεγαλύτερη ανάγκη υπ...

Full description

Saved in:
Bibliographic Details
Main Author: Βάνης, Αναστάσιος
Other Authors: Σταματάτος, Ευστάθιος
Language:el_GR
Published: 2019
Subjects:
Online Access:http://hdl.handle.net/11610/18675
Tags: Add Tag
No Tags, Be the first to tag this record!
_version_ 1828462176388513792
author Βάνης, Αναστάσιος
author2 Σταματάτος, Ευστάθιος
author_facet Σταματάτος, Ευστάθιος
Βάνης, Αναστάσιος
author_sort Βάνης, Αναστάσιος
collection DSpace
description Η εργασία ασχολείται με το πρόβλημα της χρονολόγησης κειμένων και της αλλαγής της γλώσσας στην πάροδο του χρόνου, τόσο υφολογικά όσο και στον τρόπο γραφής. Με το πέρασμα των χρόνων οι αλλαγές είναι όλο και περισσότερες. Όσο περισσότερο αλλάζουν οι κοινωνίες και οι άνθρωποι, τόσο μεγαλύτερη ανάγκη υπάρχει για νέες λέξεις, διαφορετική χρήση για αυτές που ήδη υπάρχουν, αλλά και δημιουργία σύνθετων ώστε να καλυφθεί το κενό. Το θέμα της χρονολόγησης κειμένων αποτελεί πηγή γνώσης σε έρευνες κοινωνικό-ιστορικής γλωσσολογίας για τη μεταβολή της γλώσσας. Το έτος συγγραφής ενός κειμένου είναι εμφανές πολλές φορές από τον τρόπο γραφής. Με αυτό το δεδομένο αλλά και ως πηγή έμπνευσης το διαγωνισμό SemEval 2015 και συγκεκριμένα το Task 7 από τους (Octavian Popescu & Carlo Strapparava,2015), δημιουργήθηκε το θέμα αυτής της διπλωματικής εργασίας. Στον διαγωνισμό συμμετείχαν τέσσερις ομάδες με τέσσερις διαφορετικές προσεγγίσεις επί του θέματος. Η ομάδα AMBRA που προσέγγισε το θέμα με μέθοδο ταξινόμησης μέσω βαθμολογίας από το μικρότερο προς το μεγαλύτερο. Η ομάδα ΙΧΑ, η οποία δημιούργησε τέσσερις διαφορετικές μεθόδους αντιμετώπισης για να μπορέσει να προσεγγίσει και τις τρεις εργασίες του διαγωνισμού. Αρχικά η προσέγγιση γινόταν μέσω χρονικής αναφοράς, στη συνέχεια έψαχνε οντότητες ονομάτων και δεδομένα από εξωτερικές πηγές και τέλος συμβουλευόταν τα ν-γράμματα της Google (Google ngrams) με τη χρήση γλωσσικών χαρακτηριστικών που είναι σημα-ντικά σε σχέση με τη μεταβολή της γλώσσας, σε συνδυασμό με τη μηχανική μάθηση. Η ομάδα USAAR-CHRONOS παρέδωσε ένα σύστημα το οποίο αποτελούταν από έναν περιηγητή (crawler), περιηγήτης είναι ένα πρόγραμμα (bot) με κύρια εργασία του να επισκέπτεται σελίδες του διαδικτύου και να γνωρίζει το περιοχόμενό τους, σε περίπτωση που αναζητήσει κάτι σχετικό ο χρήστης. Ο περιηγητής έκανε την έρευνα και δημιουργούσε και ένα σύνολο από χαρακτηριστικά για μελλοντική χρήση. Τέταρτη εργασία και αυτή που ξεχωρίσαμε και επιλέξαμε να αποτελέσε πηγή έμπνευσης μας είναι η ομάδα UCD (Terrence Szymanski & Gerard Lynch,2015) οι οποίοι αντιμετώπισαν το θέμα εξ ολοκλήρου υφολογικά. Εξήγαγαν τέσσερα είδη χαρακτηριστικών, ν-γράμματα χαρακτηριστικών(char ngrams), λέξεων(word ngrams), μερών του λόγου(part-of-speech tag ngrams), ν-γράμματα της google και συντακτικούς κανόνες δομής φράσης(syntactic phrase-structure rule occurrences). Ακολουθώντας κάποιες από τις τεχνικές τους ολοκληρώσαμε το σύστημα μας με λιγότερες κατηγορίες χαρα-κτηριστικών από το πρότυπο αλλά καλύτερα αποτελέσματα στο σύνολο της εργασίας. Τα χαρακτηριστικά που χρησιμοποιήσαμε ήταν τα ν-γράμματα των χαρακτήρων, των λέξων αλλά και αυτά των μερών του λόγου. Γενικότερα η προσέγγιση των χαρακτηριστικών για εκπαίδευση περιέχει πολλές κατηγορίες, επιλέξαμε τις συγκριμένες και στην διασταυρωμένη επίκυρωση 10 επαναλήψεων συγκρίνοντας τα αποτελέσματα, το σύστημα της διπλωματικής εργασίας υπερτερούσε κατά πολύ σχεδον σε όλες τις κατηγορίες. Ολοκληρώνοντας καταλήξαμε στο συμπέρασμα πως όσα περισσότερα χαρακτηριστικά προσθέτονται στο σύστημα, τόσο καλύτερα αποτελέσματα μπορεί να παράγει. Τα ν-γραμματα της Google θα μπορούσαν να βελτιώσουν αρκετά το σύστημα ,όπως και η μέθοδος doc2vec, ώστε να μεγαλώσει το σύνολο των χαρακτηριστικών και να πετύχουμε μεγαλύτερη από-δοση. Ακόμη η προσθηκη χαρακτηριστικών γραφής των κειμένων όπως συχνότητες μέσω μήκους ή άλλων μπορούν να ενισχύσουν το πρόγραμμα αισθητά. Τέλος η wikepedia είναι μια ακόμη εξωτερική πηγή που έχει να δώσει γνώση σε ένα σύστημα. Όλα αυτά σε επόμενες εργασίες θα μπορούσαν να αποτελέσουν διαρθρωτικές αλλαγές και να ενισχύσουν ακόμη περισσότερο τα αποτελέσματα της ήδη υπάρχουσας εργασίας.
id oai:hellanicus.lib.aegean.gr:11610-18675
institution Hellanicus
language el_GR
publishDate 2019
record_format dspace
spelling oai:hellanicus.lib.aegean.gr:11610-186752019-07-03T09:21:41Z Χρονολόγηση κειμένων Diachronic text evaluation Βάνης, Αναστάσιος Σταματάτος, Ευστάθιος diachronic text mining data mining χρονολόγηση εξόρυξη δεδομένα Data mining (URL: http://id.loc.gov/authorities/subjects/sh97002073) Text processing (Computer science) (URL: http://id.loc.gov/authorities/subjects/sh85134304) Η εργασία ασχολείται με το πρόβλημα της χρονολόγησης κειμένων και της αλλαγής της γλώσσας στην πάροδο του χρόνου, τόσο υφολογικά όσο και στον τρόπο γραφής. Με το πέρασμα των χρόνων οι αλλαγές είναι όλο και περισσότερες. Όσο περισσότερο αλλάζουν οι κοινωνίες και οι άνθρωποι, τόσο μεγαλύτερη ανάγκη υπάρχει για νέες λέξεις, διαφορετική χρήση για αυτές που ήδη υπάρχουν, αλλά και δημιουργία σύνθετων ώστε να καλυφθεί το κενό. Το θέμα της χρονολόγησης κειμένων αποτελεί πηγή γνώσης σε έρευνες κοινωνικό-ιστορικής γλωσσολογίας για τη μεταβολή της γλώσσας. Το έτος συγγραφής ενός κειμένου είναι εμφανές πολλές φορές από τον τρόπο γραφής. Με αυτό το δεδομένο αλλά και ως πηγή έμπνευσης το διαγωνισμό SemEval 2015 και συγκεκριμένα το Task 7 από τους (Octavian Popescu & Carlo Strapparava,2015), δημιουργήθηκε το θέμα αυτής της διπλωματικής εργασίας. Στον διαγωνισμό συμμετείχαν τέσσερις ομάδες με τέσσερις διαφορετικές προσεγγίσεις επί του θέματος. Η ομάδα AMBRA που προσέγγισε το θέμα με μέθοδο ταξινόμησης μέσω βαθμολογίας από το μικρότερο προς το μεγαλύτερο. Η ομάδα ΙΧΑ, η οποία δημιούργησε τέσσερις διαφορετικές μεθόδους αντιμετώπισης για να μπορέσει να προσεγγίσει και τις τρεις εργασίες του διαγωνισμού. Αρχικά η προσέγγιση γινόταν μέσω χρονικής αναφοράς, στη συνέχεια έψαχνε οντότητες ονομάτων και δεδομένα από εξωτερικές πηγές και τέλος συμβουλευόταν τα ν-γράμματα της Google (Google ngrams) με τη χρήση γλωσσικών χαρακτηριστικών που είναι σημα-ντικά σε σχέση με τη μεταβολή της γλώσσας, σε συνδυασμό με τη μηχανική μάθηση. Η ομάδα USAAR-CHRONOS παρέδωσε ένα σύστημα το οποίο αποτελούταν από έναν περιηγητή (crawler), περιηγήτης είναι ένα πρόγραμμα (bot) με κύρια εργασία του να επισκέπτεται σελίδες του διαδικτύου και να γνωρίζει το περιοχόμενό τους, σε περίπτωση που αναζητήσει κάτι σχετικό ο χρήστης. Ο περιηγητής έκανε την έρευνα και δημιουργούσε και ένα σύνολο από χαρακτηριστικά για μελλοντική χρήση. Τέταρτη εργασία και αυτή που ξεχωρίσαμε και επιλέξαμε να αποτελέσε πηγή έμπνευσης μας είναι η ομάδα UCD (Terrence Szymanski & Gerard Lynch,2015) οι οποίοι αντιμετώπισαν το θέμα εξ ολοκλήρου υφολογικά. Εξήγαγαν τέσσερα είδη χαρακτηριστικών, ν-γράμματα χαρακτηριστικών(char ngrams), λέξεων(word ngrams), μερών του λόγου(part-of-speech tag ngrams), ν-γράμματα της google και συντακτικούς κανόνες δομής φράσης(syntactic phrase-structure rule occurrences). Ακολουθώντας κάποιες από τις τεχνικές τους ολοκληρώσαμε το σύστημα μας με λιγότερες κατηγορίες χαρα-κτηριστικών από το πρότυπο αλλά καλύτερα αποτελέσματα στο σύνολο της εργασίας. Τα χαρακτηριστικά που χρησιμοποιήσαμε ήταν τα ν-γράμματα των χαρακτήρων, των λέξων αλλά και αυτά των μερών του λόγου. Γενικότερα η προσέγγιση των χαρακτηριστικών για εκπαίδευση περιέχει πολλές κατηγορίες, επιλέξαμε τις συγκριμένες και στην διασταυρωμένη επίκυρωση 10 επαναλήψεων συγκρίνοντας τα αποτελέσματα, το σύστημα της διπλωματικής εργασίας υπερτερούσε κατά πολύ σχεδον σε όλες τις κατηγορίες. Ολοκληρώνοντας καταλήξαμε στο συμπέρασμα πως όσα περισσότερα χαρακτηριστικά προσθέτονται στο σύστημα, τόσο καλύτερα αποτελέσματα μπορεί να παράγει. Τα ν-γραμματα της Google θα μπορούσαν να βελτιώσουν αρκετά το σύστημα ,όπως και η μέθοδος doc2vec, ώστε να μεγαλώσει το σύνολο των χαρακτηριστικών και να πετύχουμε μεγαλύτερη από-δοση. Ακόμη η προσθηκη χαρακτηριστικών γραφής των κειμένων όπως συχνότητες μέσω μήκους ή άλλων μπορούν να ενισχύσουν το πρόγραμμα αισθητά. Τέλος η wikepedia είναι μια ακόμη εξωτερική πηγή που έχει να δώσει γνώση σε ένα σύστημα. Όλα αυτά σε επόμενες εργασίες θα μπορούσαν να αποτελέσουν διαρθρωτικές αλλαγές και να ενισχύσουν ακόμη περισσότερο τα αποτελέσματα της ήδη υπάρχουσας εργασίας. 2019-06-11T06:34:00Z 2019-06-11T06:34:00Z 2018-01-22 http://hdl.handle.net/11610/18675 el_GR CC0 1.0 Παγκόσμια http://creativecommons.org/publicdomain/zero/1.0/ 72 σ. application/pdf Σάμος
spellingShingle diachronic
text
mining
data mining
χρονολόγηση
εξόρυξη
δεδομένα
Data mining (URL: http://id.loc.gov/authorities/subjects/sh97002073)
Text processing (Computer science) (URL: http://id.loc.gov/authorities/subjects/sh85134304)
Βάνης, Αναστάσιος
Χρονολόγηση κειμένων
title Χρονολόγηση κειμένων
title_full Χρονολόγηση κειμένων
title_fullStr Χρονολόγηση κειμένων
title_full_unstemmed Χρονολόγηση κειμένων
title_short Χρονολόγηση κειμένων
title_sort χρονολόγηση κειμένων
topic diachronic
text
mining
data mining
χρονολόγηση
εξόρυξη
δεδομένα
Data mining (URL: http://id.loc.gov/authorities/subjects/sh97002073)
Text processing (Computer science) (URL: http://id.loc.gov/authorities/subjects/sh85134304)
url http://hdl.handle.net/11610/18675
work_keys_str_mv AT banēsanastasios chronologēsēkeimenōn
AT banēsanastasios diachronictextevaluation