Αυτόματη κατηγοριοποίηση των μηνυμάτων email σε φακέλους

Η αυτόματη ταξινόμηση μηνυμάτων εμαιλ σε φακέλους είναι μια μορφή ταξινόμησης κειμένων που παρουσιάζει ιδιαίτερο ενδιαφέρον. Ορισμένα στοιχεία που δυσκολεύουν το έργο της ταξινόμησης είναι ότι τα μηνύματα εμαιλ είναι συνήθως μικρού μεγέθους, πολλές φορές περιέχουν ορθογραφικά λάθη και τέλος ο τρόπος...

Πλήρης περιγραφή

Αποθηκεύτηκε σε:
Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριοι συγγραφείς: Φουρναρίδης, Γεώργιος, Φουρναρίδης, Ηλίας
Άλλοι συγγραφείς: Σταματάτος, Ευστάθιος
Γλώσσα:Greek
Δημοσίευση: 2015
Θέματα:
Διαθέσιμο Online:https://vsmart.lib.aegean.gr/webopac/List.csp?SearchT1=%CE%A6%CE%BF%CF%85%CF%81%CE%BD%CE%B1%CF%81%CE%AF%CE%B4%CE%B7%CF%82%2C+%CE%97%CE%BB%CE%AF%CE%B1%CF%82&Index1=Keywordsbib&Database=1&SearchMethod=Find_1&SearchTerm1=%CE%A6%CE%BF%CF%85%CF%81%CE%BD%CE%B1%CF%81%CE%AF%CE%B4%CE%B7%CF%82%2C+%CE%97%CE%BB%CE%AF%CE%B1%CF%82&OpacLanguage=gre&Profile=Default&EncodedRequest=*F9*D3*BDW*8C*0A*EF*A4*03*86e*28*F4*0AL*A0&EncodedQuery=*F9*D3*BDW*8C*0A*EF*A4*03*86e*28*F4*0AL*A0&Source=SysQR&PageType=Start&PreviousList=RecordListFind&WebPageNr=1&NumberToRetrieve=50&WebAction=NewSearch&StartValue=0&RowRepeat=0&ExtraInfo=&SortIndex=Year&SortDirection=-1&Resource=&SavingIndicator=&RestrType=&RestrTerms=&RestrShowAll=&LinkToIndex=
http://hdl.handle.net/11610/8653
Ετικέτες: Προσθήκη ετικέτας
Δεν υπάρχουν, Καταχωρήστε ετικέτα πρώτοι!
_version_ 1828461934064697344
author Φουρναρίδης, Γεώργιος
Φουρναρίδης, Ηλίας
author2 Σταματάτος, Ευστάθιος
author_facet Σταματάτος, Ευστάθιος
Φουρναρίδης, Γεώργιος
Φουρναρίδης, Ηλίας
author_sort Φουρναρίδης, Γεώργιος
collection DSpace
description Η αυτόματη ταξινόμηση μηνυμάτων εμαιλ σε φακέλους είναι μια μορφή ταξινόμησης κειμένων που παρουσιάζει ιδιαίτερο ενδιαφέρον. Ορισμένα στοιχεία που δυσκολεύουν το έργο της ταξινόμησης είναι ότι τα μηνύματα εμαιλ είναι συνήθως μικρού μεγέθους, πολλές φορές περιέχουν ορθογραφικά λάθη και τέλος ο τρόπος σκέψης με τον οποίο κάθε χρήστης ταξινομεί τα εμαιλ του διαφέρει. Ορισμένοι χρήστες ταξινομούν τα μηνύματά τους είτε με βάση τον αποστολέα, είτε με βάση το θέμα, είτε με άλλο τρόπο. Επίσης κάποιοι φάκελοι εγκαταλείπονται ενώ παράλληλα δημιουργούνται νέοι φάκελοι. Όλα αυτά καθιστούν πολύπλοκη την διαδικασία της ταξινόμησης. Ένα σύστημα που κάνει ταξινόμηση των νέων εισερχόμενων μηνυμάτων με βάση έναν αλγόριθμο ταξινόμησης πρέπει να γνωρίζει τον τρόπο με τον οποίο ο χρήστης ταξινομεί τα μηνύματά του. Συνεπώς το σύστημα χρειάζεται κάποια μηνύματα που έχουν ήδη ταξινομηθεί από τον χρήστη σε φακέλους, τα οποία αποτελούν το σύνολο εκπαίδευσης του αλγορίθμου. Δύο αλγόριθμοι ταξινόμησης με τους οποίους θα ασχοληθούμε είναι ο Naive Bayes και ο Support Vector Machines (SVMs). Ο πρώτος χρησιμοποιεί το θεώρημα του Bayes και με βάση τα μοντέλα πιθανοτήτων που κατασκευάζει, ταξινομεί τα νέα εισερχόμενα μηνύματα. Οι ταξινομητές SVMs αναπαριστούν τα δεδομένα εκπαίδευσης σαν σημεία σε πολυδιάστατο χώρο με τέτοιο τρόπο ώστε τα σημεία κάθε κατηγορίας να είναι ομαδοποιημένα και οι ομάδες να έχουν το ξεκάθαρο κενό μεταξύ τους. Κάθε κενό που χωρίζει μια ομάδα από μια άλλη, προσδιορίζεται από δυο ευθείες (υπερεπίπεδα). Τα σημεία τα οποία είναι πάνω στα υπερεπίπεδα ονομάζονται Support Vectors. Τα νέα μηνύματα αναπαριστούνται σαν σημεία στο πολυδιάστατο χώρο και σύμφωνα με την ομάδα στην οποία είναι πιο κοντά, παίρνουν και την ανάλογη κατηγορία. Οι αλγόριθμοι ταξινόμησης αξιολογούνται συνήθως από μέτρα επίδοσης που τα συναντάμε στην ανάκτηση πληροφορίας, όπως recall, precision και άλλα. Τα μηνύματα δεν έχουν την κατάλληλη μορφή για να αποτελέσουν είσοδο για τους αλγόριθμους ταξινόμησης. Η μορφή με την οποία συνήθως αναπαριστάται ένα μήνυμα είναι με το μοντέλο του διανυσματικού χώρου. Με άλλα λόγια κάθε μήνυμα είναι ένα διάνυσμα από όρους ή αλλιώς χαρακτηριστικά (features). Το Πανεπιστήμιο της Μασαχουσέτης [18][19], που ασχολήθηκε με την συλλογή μηνυμάτων της Enron, χρησιμοποίησε λέξεις ως χαρακτηριστικά για την κατασκευή διανυσμάτων. Στην δική μας έρευνα χρησιμοποιήσαμε ως χαρακτηριστικά Ν-grams (3grams, 4grams), Ονόματα (NER) και συνδυασμό αυτών. Στο τέλος συγκρίναμε τα αποτελέσματα των πειραμάτων μας και παρουσιάζουμε τα micro-average accuracy, macro-average precision και macro-average recall για κάθε χρήστη της Enron που μελετήσαμε. Επίσης γίνεται ανάλυση για το σύστημα που μετατρέπει τα μηνύματα σε διανύσματα χαρακτηριστικών, παρουσιάζονται διαγράμματα use-case, διαγράμματα ροής δεδομένων, διαγράμματα αλληλουχίας ενεργειών, διαγράμματα κλάσεων και περιγράφεται η λειτουργία του
id oai:hellanicus.lib.aegean.gr:11610-8653
institution Hellanicus
language Greek
publishDate 2015
record_format dspace
spelling oai:hellanicus.lib.aegean.gr:11610-86532025-02-07T14:22:06Z Αυτόματη κατηγοριοποίηση των μηνυμάτων email σε φακέλους Φουρναρίδης, Γεώργιος Φουρναρίδης, Ηλίας Σταματάτος, Ευστάθιος Email Ανάκτηση πληροφορίας Αυτόματη κατηγοριοποίηση μηνυμάτων Αλγόριθμοι ταξινόμησης Email foldering Naïve Bayes Support Vector Machines Automatic categorization Text processing (Computer science) Support vector machines Η αυτόματη ταξινόμηση μηνυμάτων εμαιλ σε φακέλους είναι μια μορφή ταξινόμησης κειμένων που παρουσιάζει ιδιαίτερο ενδιαφέρον. Ορισμένα στοιχεία που δυσκολεύουν το έργο της ταξινόμησης είναι ότι τα μηνύματα εμαιλ είναι συνήθως μικρού μεγέθους, πολλές φορές περιέχουν ορθογραφικά λάθη και τέλος ο τρόπος σκέψης με τον οποίο κάθε χρήστης ταξινομεί τα εμαιλ του διαφέρει. Ορισμένοι χρήστες ταξινομούν τα μηνύματά τους είτε με βάση τον αποστολέα, είτε με βάση το θέμα, είτε με άλλο τρόπο. Επίσης κάποιοι φάκελοι εγκαταλείπονται ενώ παράλληλα δημιουργούνται νέοι φάκελοι. Όλα αυτά καθιστούν πολύπλοκη την διαδικασία της ταξινόμησης. Ένα σύστημα που κάνει ταξινόμηση των νέων εισερχόμενων μηνυμάτων με βάση έναν αλγόριθμο ταξινόμησης πρέπει να γνωρίζει τον τρόπο με τον οποίο ο χρήστης ταξινομεί τα μηνύματά του. Συνεπώς το σύστημα χρειάζεται κάποια μηνύματα που έχουν ήδη ταξινομηθεί από τον χρήστη σε φακέλους, τα οποία αποτελούν το σύνολο εκπαίδευσης του αλγορίθμου. Δύο αλγόριθμοι ταξινόμησης με τους οποίους θα ασχοληθούμε είναι ο Naive Bayes και ο Support Vector Machines (SVMs). Ο πρώτος χρησιμοποιεί το θεώρημα του Bayes και με βάση τα μοντέλα πιθανοτήτων που κατασκευάζει, ταξινομεί τα νέα εισερχόμενα μηνύματα. Οι ταξινομητές SVMs αναπαριστούν τα δεδομένα εκπαίδευσης σαν σημεία σε πολυδιάστατο χώρο με τέτοιο τρόπο ώστε τα σημεία κάθε κατηγορίας να είναι ομαδοποιημένα και οι ομάδες να έχουν το ξεκάθαρο κενό μεταξύ τους. Κάθε κενό που χωρίζει μια ομάδα από μια άλλη, προσδιορίζεται από δυο ευθείες (υπερεπίπεδα). Τα σημεία τα οποία είναι πάνω στα υπερεπίπεδα ονομάζονται Support Vectors. Τα νέα μηνύματα αναπαριστούνται σαν σημεία στο πολυδιάστατο χώρο και σύμφωνα με την ομάδα στην οποία είναι πιο κοντά, παίρνουν και την ανάλογη κατηγορία. Οι αλγόριθμοι ταξινόμησης αξιολογούνται συνήθως από μέτρα επίδοσης που τα συναντάμε στην ανάκτηση πληροφορίας, όπως recall, precision και άλλα. Τα μηνύματα δεν έχουν την κατάλληλη μορφή για να αποτελέσουν είσοδο για τους αλγόριθμους ταξινόμησης. Η μορφή με την οποία συνήθως αναπαριστάται ένα μήνυμα είναι με το μοντέλο του διανυσματικού χώρου. Με άλλα λόγια κάθε μήνυμα είναι ένα διάνυσμα από όρους ή αλλιώς χαρακτηριστικά (features). Το Πανεπιστήμιο της Μασαχουσέτης [18][19], που ασχολήθηκε με την συλλογή μηνυμάτων της Enron, χρησιμοποίησε λέξεις ως χαρακτηριστικά για την κατασκευή διανυσμάτων. Στην δική μας έρευνα χρησιμοποιήσαμε ως χαρακτηριστικά Ν-grams (3grams, 4grams), Ονόματα (NER) και συνδυασμό αυτών. Στο τέλος συγκρίναμε τα αποτελέσματα των πειραμάτων μας και παρουσιάζουμε τα micro-average accuracy, macro-average precision και macro-average recall για κάθε χρήστη της Enron που μελετήσαμε. Επίσης γίνεται ανάλυση για το σύστημα που μετατρέπει τα μηνύματα σε διανύσματα χαρακτηριστικών, παρουσιάζονται διαγράμματα use-case, διαγράμματα ροής δεδομένων, διαγράμματα αλληλουχίας ενεργειών, διαγράμματα κλάσεων και περιγράφεται η λειτουργία του 2015-11-17T10:32:06Z 2015-11-17T10:32:06Z 2010 https://vsmart.lib.aegean.gr/webopac/List.csp?SearchT1=%CE%A6%CE%BF%CF%85%CF%81%CE%BD%CE%B1%CF%81%CE%AF%CE%B4%CE%B7%CF%82%2C+%CE%97%CE%BB%CE%AF%CE%B1%CF%82&Index1=Keywordsbib&Database=1&SearchMethod=Find_1&SearchTerm1=%CE%A6%CE%BF%CF%85%CF%81%CE%BD%CE%B1%CF%81%CE%AF%CE%B4%CE%B7%CF%82%2C+%CE%97%CE%BB%CE%AF%CE%B1%CF%82&OpacLanguage=gre&Profile=Default&EncodedRequest=*F9*D3*BDW*8C*0A*EF*A4*03*86e*28*F4*0AL*A0&EncodedQuery=*F9*D3*BDW*8C*0A*EF*A4*03*86e*28*F4*0AL*A0&Source=SysQR&PageType=Start&PreviousList=RecordListFind&WebPageNr=1&NumberToRetrieve=50&WebAction=NewSearch&StartValue=0&RowRepeat=0&ExtraInfo=&SortIndex=Year&SortDirection=-1&Resource=&SavingIndicator=&RestrType=&RestrTerms=&RestrShowAll=&LinkToIndex= http://hdl.handle.net/11610/8653 el application/pdf Σάμος
spellingShingle Email
Ανάκτηση πληροφορίας
Αυτόματη κατηγοριοποίηση μηνυμάτων
Αλγόριθμοι ταξινόμησης
Email foldering
Naïve Bayes
Support Vector Machines
Automatic categorization
Text processing (Computer science)
Support vector machines
Φουρναρίδης, Γεώργιος
Φουρναρίδης, Ηλίας
Αυτόματη κατηγοριοποίηση των μηνυμάτων email σε φακέλους
title Αυτόματη κατηγοριοποίηση των μηνυμάτων email σε φακέλους
title_full Αυτόματη κατηγοριοποίηση των μηνυμάτων email σε φακέλους
title_fullStr Αυτόματη κατηγοριοποίηση των μηνυμάτων email σε φακέλους
title_full_unstemmed Αυτόματη κατηγοριοποίηση των μηνυμάτων email σε φακέλους
title_short Αυτόματη κατηγοριοποίηση των μηνυμάτων email σε φακέλους
title_sort αυτόματη κατηγοριοποίηση των μηνυμάτων email σε φακέλους
topic Email
Ανάκτηση πληροφορίας
Αυτόματη κατηγοριοποίηση μηνυμάτων
Αλγόριθμοι ταξινόμησης
Email foldering
Naïve Bayes
Support Vector Machines
Automatic categorization
Text processing (Computer science)
Support vector machines
url https://vsmart.lib.aegean.gr/webopac/List.csp?SearchT1=%CE%A6%CE%BF%CF%85%CF%81%CE%BD%CE%B1%CF%81%CE%AF%CE%B4%CE%B7%CF%82%2C+%CE%97%CE%BB%CE%AF%CE%B1%CF%82&Index1=Keywordsbib&Database=1&SearchMethod=Find_1&SearchTerm1=%CE%A6%CE%BF%CF%85%CF%81%CE%BD%CE%B1%CF%81%CE%AF%CE%B4%CE%B7%CF%82%2C+%CE%97%CE%BB%CE%AF%CE%B1%CF%82&OpacLanguage=gre&Profile=Default&EncodedRequest=*F9*D3*BDW*8C*0A*EF*A4*03*86e*28*F4*0AL*A0&EncodedQuery=*F9*D3*BDW*8C*0A*EF*A4*03*86e*28*F4*0AL*A0&Source=SysQR&PageType=Start&PreviousList=RecordListFind&WebPageNr=1&NumberToRetrieve=50&WebAction=NewSearch&StartValue=0&RowRepeat=0&ExtraInfo=&SortIndex=Year&SortDirection=-1&Resource=&SavingIndicator=&RestrType=&RestrTerms=&RestrShowAll=&LinkToIndex=
http://hdl.handle.net/11610/8653
work_keys_str_mv AT phournaridēsgeōrgios automatēkatēgoriopoiēsētōnmēnymatōnemailsephakelous
AT phournaridēsēlias automatēkatēgoriopoiēsētōnmēnymatōnemailsephakelous