Χρονολόγηση κειμένων
Η εργασία ασχολείται με το πρόβλημα της χρονολόγησης κειμένων και της αλλαγής της γλώσσας στην πάροδο του χρόνου, τόσο υφολογικά όσο και στον τρόπο γραφής. Με το πέρασμα των χρόνων οι αλλαγές είναι όλο και περισσότερες. Όσο περισσότερο αλλάζουν οι κοινωνίες και οι άνθρωποι, τόσο μεγαλύτερη ανάγκη υπ...
Saved in:
| Main Author: | |
|---|---|
| Other Authors: | |
| Language: | el_GR |
| Published: |
2019
|
| Subjects: | |
| Online Access: | http://hdl.handle.net/11610/18675 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| _version_ | 1828462176388513792 |
|---|---|
| author | Βάνης, Αναστάσιος |
| author2 | Σταματάτος, Ευστάθιος |
| author_sort | Βάνης, Αναστάσιος |
| collection | DSpace |
| description | Η εργασία ασχολείται με το πρόβλημα της χρονολόγησης κειμένων και της αλλαγής της γλώσσας στην πάροδο του χρόνου, τόσο υφολογικά όσο και στον τρόπο γραφής. Με το πέρασμα των χρόνων οι αλλαγές είναι όλο και περισσότερες. Όσο περισσότερο αλλάζουν οι κοινωνίες και οι άνθρωποι, τόσο μεγαλύτερη ανάγκη υπάρχει για νέες λέξεις, διαφορετική χρήση για αυτές που ήδη υπάρχουν, αλλά και δημιουργία σύνθετων ώστε να καλυφθεί το κενό. Το θέμα της χρονολόγησης κειμένων αποτελεί πηγή γνώσης σε έρευνες κοινωνικό-ιστορικής γλωσσολογίας για τη μεταβολή της γλώσσας. Το έτος συγγραφής ενός κειμένου είναι εμφανές πολλές φορές από τον τρόπο γραφής. Με αυτό το δεδομένο αλλά και ως πηγή έμπνευσης το διαγωνισμό SemEval 2015 και συγκεκριμένα το Task 7 από τους (Octavian Popescu & Carlo Strapparava,2015), δημιουργήθηκε το θέμα αυτής της διπλωματικής εργασίας. Στον διαγωνισμό συμμετείχαν τέσσερις ομάδες με τέσσερις διαφορετικές προσεγγίσεις επί του θέματος. Η ομάδα AMBRA που προσέγγισε το θέμα με μέθοδο ταξινόμησης μέσω βαθμολογίας από το μικρότερο προς το μεγαλύτερο. Η ομάδα ΙΧΑ, η οποία δημιούργησε τέσσερις διαφορετικές μεθόδους αντιμετώπισης για να μπορέσει να προσεγγίσει και τις τρεις εργασίες του διαγωνισμού. Αρχικά η προσέγγιση γινόταν μέσω χρονικής αναφοράς, στη συνέχεια έψαχνε οντότητες ονομάτων και δεδομένα από εξωτερικές πηγές και τέλος συμβουλευόταν τα ν-γράμματα της Google (Google ngrams) με τη χρήση γλωσσικών χαρακτηριστικών που είναι σημα-ντικά σε σχέση με τη μεταβολή της γλώσσας, σε συνδυασμό με τη μηχανική μάθηση. Η ομάδα USAAR-CHRONOS παρέδωσε ένα σύστημα το οποίο αποτελούταν από έναν περιηγητή (crawler), περιηγήτης είναι ένα πρόγραμμα (bot) με κύρια εργασία του να επισκέπτεται σελίδες του διαδικτύου και να γνωρίζει το περιοχόμενό τους, σε περίπτωση που αναζητήσει κάτι σχετικό ο χρήστης. Ο περιηγητής έκανε την έρευνα και δημιουργούσε και ένα σύνολο από χαρακτηριστικά για μελλοντική χρήση. Τέταρτη εργασία και αυτή που ξεχωρίσαμε και επιλέξαμε να αποτελέσε πηγή έμπνευσης μας είναι η ομάδα UCD (Terrence Szymanski & Gerard Lynch,2015) οι οποίοι αντιμετώπισαν το θέμα εξ ολοκλήρου υφολογικά. Εξήγαγαν τέσσερα είδη χαρακτηριστικών, ν-γράμματα χαρακτηριστικών(char ngrams), λέξεων(word ngrams), μερών του λόγου(part-of-speech tag ngrams), ν-γράμματα της google και συντακτικούς κανόνες δομής φράσης(syntactic phrase-structure rule occurrences). Ακολουθώντας κάποιες από τις τεχνικές τους ολοκληρώσαμε το σύστημα μας με λιγότερες κατηγορίες χαρα-κτηριστικών από το πρότυπο αλλά καλύτερα αποτελέσματα στο σύνολο της εργασίας. Τα χαρακτηριστικά που χρησιμοποιήσαμε ήταν τα ν-γράμματα των χαρακτήρων, των λέξων αλλά και αυτά των μερών του λόγου. Γενικότερα η προσέγγιση των χαρακτηριστικών για εκπαίδευση περιέχει πολλές κατηγορίες, επιλέξαμε τις συγκριμένες και στην διασταυρωμένη επίκυρωση 10 επαναλήψεων συγκρίνοντας τα αποτελέσματα, το σύστημα της διπλωματικής εργασίας υπερτερούσε κατά πολύ σχεδον σε όλες τις κατηγορίες. Ολοκληρώνοντας καταλήξαμε στο συμπέρασμα πως όσα περισσότερα χαρακτηριστικά προσθέτονται στο σύστημα, τόσο καλύτερα αποτελέσματα μπορεί να παράγει. Τα ν-γραμματα της Google θα μπορούσαν να βελτιώσουν αρκετά το σύστημα ,όπως και η μέθοδος doc2vec, ώστε να μεγαλώσει το σύνολο των χαρακτηριστικών και να πετύχουμε μεγαλύτερη από-δοση. Ακόμη η προσθηκη χαρακτηριστικών γραφής των κειμένων όπως συχνότητες μέσω μήκους ή άλλων μπορούν να ενισχύσουν το πρόγραμμα αισθητά. Τέλος η wikepedia είναι μια ακόμη εξωτερική πηγή που έχει να δώσει γνώση σε ένα σύστημα. Όλα αυτά σε επόμενες εργασίες θα μπορούσαν να αποτελέσουν διαρθρωτικές αλλαγές και να ενισχύσουν ακόμη περισσότερο τα αποτελέσματα της ήδη υπάρχουσας εργασίας. |
| id | oai:hellanicus.lib.aegean.gr:11610-18675 |
| institution | Hellanicus |
| language | el_GR |
| publishDate | 2019 |
| record_format | dspace |
| title | Χρονολόγηση κειμένων |
| topic | diachronic text mining data mining χρονολόγηση εξόρυξη δεδομένα Data mining (URL: http://id.loc.gov/authorities/subjects/sh97002073) Text processing (Computer science) (URL: http://id.loc.gov/authorities/subjects/sh85134304) |
| url | http://hdl.handle.net/11610/18675 |
| work_keys_str_mv | AT banēsanastasios chronologēsēkeimenōn AT banēsanastasios diachronictextevaluation |