Αναγνώριση συγγραφέα με αναπαράσταση κειμένων στο τανυστικό χώρο 2ης τάξης : μεταπτυχιακή διατριβή
Η μεγάλη πλειοψηφία της έρευνας στην κατηγοριοποίηση κειμένων χρησιμοποιεί το διανυσματικό χώρο για να αναπαραστήσει τα κείμενα. Σε αυτό την εργασία, προτείνετε η χρήση τανυστών δεύτερης τάξης για την αναπαράσταση των κειμένων. Με βάση μια τροποποίηση του αλγορίθμου SVM, αποκαλούμενη tensor space m...
Αποθηκεύτηκε σε:
| Κύριος συγγραφέας: | |
|---|---|
| Συγγραφή απο Οργανισμό/Αρχή: | |
| Μορφή: | Thesis Βιβλίο |
| Γλώσσα: | Greek |
| Δημοσίευση: |
2008.
|
| Θέματα: | |
| Διαθέσιμο Online: | http://hdl.handle.net/11610/12628 |
| Ετικέτες: |
Προσθήκη ετικέτας
Δεν υπάρχουν, Καταχωρήστε ετικέτα πρώτοι!
|
| Περίληψη: | Η μεγάλη πλειοψηφία της έρευνας στην κατηγοριοποίηση κειμένων χρησιμοποιεί το διανυσματικό χώρο για να αναπαραστήσει τα κείμενα. Σε αυτό την εργασία, προτείνετε η χρήση τανυστών δεύτερης τάξης για την αναπαράσταση των κειμένων. Με βάση μια τροποποίηση του αλγορίθμου SVM, αποκαλούμενη tensor space machine(STM), ερευνούνται διάφοροι μέθοδοι για την μορφή του τανυστή δεύτερης τάξης(πίνακα), λαμβάνοντας υπόψη ότι τα παρόμοια χαρακτηριστικά γνωρίσματα πρέπει να τοποθετούνται στην ίδια γειτονιά του πίνακα. Οι προτεινόμενες μέθοδοι εφαρμόζονται στο πρόβλημα αναγνώρισης συγγραφέα, χρησιμοποιώντας σαν χαρακτηριστικά γνωρίσματα 3grams τα οποία και εξάγονται από το σύνολο των κειμένων εκπαίδευσης. Η σύγκριση του STM με SVM δείχνει την αποτελεσματικότητα των προτεινόμενων δομών όταν ο αριθμός των κειμένων εκπαίδευσης είναι μικρός, κάτι το οποίο συμβαίνει σε εφαρμογές του πραγματικού κόσμου. The vast majority of research in text categorization use the vector space model to represent texts. In this work, we propose the use of second-order tensors for representing texts. Based on a modification of the SVM algorithm, called support tensor machine(STM), we explore various methods for filling the matrix of features taking into account that similar features should be placed in the same neighborhood. The proposed methods are applied to the author identification problem using character 3-gram features based on balanced datasets. The comparison of STM with SVM indicates the effectiviness of the proposed structures of the feature matrix to small data samples. |
|---|---|
| Φυσική περιγραφή: | 79 σ. : σχέδια ; 30 εκ. |
| Βιβλιογραφία: | Βιβλιογραφία: σ. 77-79. |
| Πρόσβαση: | Διάθεση πλήρους κειμένου - Ελεύθερη πρόσβαση. |