Αυτόματη κατηγοριοποίηση των μηνυμάτων email σε φακέλους : πτυχιακή εργασία
Η αυτόματη ταξινόμηση μηνυμάτων εμαιλ σε φακέλους είναι μια μορφή ταξινόμησης κειμένων που παρουσιάζει ιδιαίτερο ενδιαφέρον. Ορισμένα στοιχεία που δυσκολεύουν το έργο της ταξινόμησης είναι ότι τα μηνύματα εμαιλ είναι συνήθως μικρού μεγέθους, πολλές φορές περιέχουν ορθογραφικά λάθη και τέλος ο τρόπος...
Αποθηκεύτηκε σε:
| Κύριος συγγραφέας: | |
|---|---|
| Συγγραφή απο Οργανισμό/Αρχή: | |
| Άλλοι συγγραφείς: | , |
| Μορφή: | Thesis Βιβλίο |
| Γλώσσα: | Greek |
| Δημοσίευση: |
2010.
|
| Θέματα: | |
| Διαθέσιμο Online: | http://hdl.handle.net/11610/8653 |
| Ετικέτες: |
Προσθήκη ετικέτας
Δεν υπάρχουν, Καταχωρήστε ετικέτα πρώτοι!
|
| Περίληψη: | Η αυτόματη ταξινόμηση μηνυμάτων εμαιλ σε φακέλους είναι μια μορφή ταξινόμησης κειμένων που παρουσιάζει ιδιαίτερο ενδιαφέρον. Ορισμένα στοιχεία που δυσκολεύουν το έργο της ταξινόμησης είναι ότι τα μηνύματα εμαιλ είναι συνήθως μικρού μεγέθους, πολλές φορές περιέχουν ορθογραφικά λάθη και τέλος ο τρόπος σκέψης με τον οποίο κάθε χρήστης ταξινομεί τα εμαιλ του διαφέρει. Ορισμένοι χρήστες ταξινομούν τα μηνύματά τους είτε με βάση τον αποστολέα, είτε με βάση το θέμα, είτε με άλλο τρόπο. Επίσης κάποιοι φάκελοι εγκαταλείπονται ενώ παράλληλα δημιουργούνται νέοι φάκελοι. Όλα αυτά καθιστούν πολύπλοκη την διαδικασία της ταξινόμησης. Ένα σύστημα που κάνει ταξινόμηση των νέων εισερχόμενων μηνυμάτων με βάση έναν αλγόριθμο ταξινόμησης πρέπει να γνωρίζει τον τρόπο με τον οποίο ο χρήστης ταξινομεί τα μηνύματά του. Συνεπώς το σύστημα χρειάζεται κάποια μηνύματα που έχουν ήδη ταξινομηθεί από τον χρήστη σε φακέλους, τα οποία αποτελούν το σύνολο εκπαίδευσης του αλγορίθμου. Δύο αλγόριθμοι ταξινόμησης με τους οποίους θα ασχοληθούμε είναι ο Naive Bayes και ο Support Vector Machines (SVMs). Ο πρώτος χρησιμοποιεί το θεώρημα του Bayes και με βάση τα μοντέλα πιθανοτήτων που κατασκευάζει, ταξινομεί τα νέα εισερχόμενα μηνύματα. Οι ταξινομητές SVMs αναπαριστούν τα δεδομένα εκπαίδευσης σαν σημεία σε πολυδιάστατο χώρο με τέτοιο τρόπο ώστε τα σημεία κάθε κατηγορίας να είναι ομαδοποιημένα και οι ομάδες να έχουν το ξεκάθαρο κενό μεταξύ τους. Κάθε κενό που χωρίζει μια ομάδα από μια άλλη, προσδιορίζεται από δυο ευθείες (υπερεπίπεδα). Τα σημεία τα οποία είναι πάνω στα υπερεπίπεδα ονομάζονται Support Vectors. Τα νέα μηνύματα αναπαριστούνται σαν σημεία στο πολυδιάστατο χώρο και σύμφωνα με την ομάδα στην οποία είναι πιο κοντά, παίρνουν και την ανάλογη κατηγορία. Οι αλγόριθμοι ταξινόμησης αξιολογούνται συνήθως από μέτρα επίδοσης που τα συναντάμε στην ανάκτηση πληροφορίας, όπως recall, precision και άλλα. Τα μηνύματα δεν έχουν την κατάλληλη μορφή για να αποτελέσουν είσοδο για τους αλγόριθμους ταξινόμησης. Η μορφή με την οποία συνήθως αναπαριστάται ένα μήνυμα είναι με το μοντέλο του διανυσματικού χώρου. Με άλλα λόγια κάθε μήνυμα είναι ένα διάνυσμα από όρους ή αλλιώς χαρακτηριστικά (features). Το Πανεπιστήμιο της Μασαχουσέτης [18][19], που ασχολήθηκε με την συλλογή μηνυμάτων της Enron, χρησιμοποίησε λέξεις ως χαρακτηριστικά για την κατασκευή διανυσμάτων. Στην δική μας έρευνα χρησιμοποιήσαμε ως χαρακτηριστικά Ν-grams (3grams, 4grams), Ονόματα (NER) και συνδυασμό αυτών. Στο τέλος συγκρίναμε τα αποτελέσματα των πειραμάτων μας και παρουσιάζουμε τα micro-average accuracy, macro-average precision και macro-average recall για κάθε χρήστη της Enron που μελετήσαμε. Επίσης γίνεται ανάλυση για το σύστημα που μετατρέπει τα μηνύματα σε διανύσματα χαρακτηριστικών, παρουσιάζονται διαγράμματα use-case, διαγράμματα ροής δεδομένων, διαγράμματα αλληλουχίας ενεργειών, διαγράμματα κλάσεων και περιγράφεται η λειτουργία του |
|---|---|
| Περιγραφή τεκμηρίου: | Μέλη της εξεταστικής επιτροπής: Σταματάτος Ευστάθιος, Καβαλλιεράτου Εργίνα, Τζουραμάνης Θεόδωρος. |
| Φυσική περιγραφή: | x, 70 σ. : εγχρ. εικ. ; 30 εκ. |
| Βιβλιογραφία: | Βιβλιογραφία: σ. 55-56. |
| Πρόσβαση: | Διάθεση πλήρους κειμένου ; |