Εντοπισμός Βανδαλισμών στο Wikipedia
Ο εντοπισμός βανδαλισμών στη Wikipedia είναι ένα θέμα που απασχολεί τη Wikipedia από τη γέννηση της. Η δυνατότητα που δίνει στους χρήστες να μπορούν να τροποποιούν ένα άρθρο ή να γράφουν ένα καινούργιο χωρίς να είναι εγγεγραμμένοι χρήστες την έκανε τη μεγαλύτερη εγκυκλοπαίδεια παγκοσμίως. Για να συν...
Saved in:
| Summary: | Ο εντοπισμός βανδαλισμών στη Wikipedia είναι ένα θέμα που απασχολεί τη Wikipedia από τη γέννηση της. Η δυνατότητα που δίνει στους χρήστες να μπορούν να τροποποιούν ένα άρθρο ή να γράφουν ένα καινούργιο χωρίς να είναι εγγεγραμμένοι χρήστες την έκανε τη μεγαλύτερη εγκυκλοπαίδεια παγκοσμίως. Για να συνεχίσει όμως την επιτυχή παρουσία της στο διαδίκτυο πρέπει να διασφαλίσει την εγκυρότητα και την ακεραιότητα των πληροφοριών που παρέχει. Η δυνατότητα του να μπορεί ο οποιοσδήποτε να παρεμβαίνει στο περιεχόμενό της μπορεί να της έδωσε τη ταχύτατη ανάπτυξη της, αλλά εμπεριέχει και κινδύνους για την αξιοπιστία των περιεχομένων της, καθώς κάποιοι προβαίνουν σε τροποποιήσεις του περιεχομένου της κακοπροαίρετα. Χάρη στο μέγεθος της που ολοένα και αυξάνεται είναι αδύνατη η επίβλεψη των τροποποιήσεων και ο έλεγχός τους.Είναι προφανής, λοιπόν, η ανάγκη δημιουργίας ενός συστήματος το οποίο θα εποπτεύει τις αλλαγές αυτές. Αυτό το σύστημα θα χρησιμοποιεί αλγόριθμο που θα εντοπίζει τους βανδαλισμούς στις επεξεργασίες που γίνονται. Μέχρι στιγμής οι επικρατέστερες μέθοδοι για τον εντοπισμό των βανδαλισμών στη Wikipedia χρησιμοποιούν μεθόδους Μηχανικής Μάθησης και έχουν παρουσιαστεί στο PAN 2010 και 2011 Vandalism Detection Competition. Βάση αυτού του διαγωνισμού χρησιμοποιήσαμε τα διαθέσιμα σύνολα δεδομένων για να εφαρμόσουμε τη προσέγγισή μας και να τη συγκρίνουμε με αυτές που έχουν υλοποιηθεί ήδη στους διαγωνισμούς. Τα σύνολα των δεδομένων είναι για τρεις γλώσσες, τα Αγγλικά τα Γερμανικά και τα Ισπανικά. Αν και η τάση είναι να φτιαχτεί ένας αλγόριθμος ανεξάρτητος με τη γλώσσα στην οποία έγινε η επεξεργασία, εμείς θα δημιουργήσουμε ταξινομητές για την κάθε γλώσσα προσπαθώντας να εκμεταλλευτούμε τα χαρακτηριστικά της κάθε μιας.Στη διπλωματική εργασία αυτή ασχοληθήκαμε με τη δημιουργία αλγορίθμου που θα εντοπίζει τους βανδαλισμούς βάση της ανάλυσης του κειμένου των άρθρων σε ν-γράμματα και θα χρησιμοποιεί τον SVM αλγόριθμο για την εκπαίδευση, την πρόβλεψη για το βανδαλισμό και τον έλεγχο του αλγορίθμου. Πρόκειται, λοιπόν, για ένα δυαδικό πρόβλημα ταξινόμησης κύριο χαρακτηριστικό του οποίο είναι τα ασύμμετρα σύνολα δεδομένων. Μεγάλη σημασία είχε η επιλογή της μεθόδου που θα ακολουθήσουμε καθώς τα ασύμμετρα σύνολα απαιτούν ειδικό χειρισμό. |
|---|