Εντοπισμός Βανδαλισμών στο Wikipedia

Ο εντοπισμός βανδαλισμών στη Wikipedia είναι ένα θέμα που απασχολεί τη Wikipedia από τη γέννηση της. Η δυνατότητα που δίνει στους χρήστες να μπορούν να τροποποιούν ένα άρθρο ή να γράφουν ένα καινούργιο χωρίς να είναι εγγεγραμμένοι χρήστες την έκανε τη μεγαλύτερη εγκυκλοπαίδεια παγκοσμίως. Για να συν...

Πλήρης περιγραφή

Αποθηκεύτηκε σε:
Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Σιδεράτος, Δημήτριος
Άλλοι συγγραφείς: Σταματάτος, Ευστάθιος
Γλώσσα:Greek
Δημοσίευση: 2015
Θέματα:
Διαθέσιμο Online:https://vsmart.lib.aegean.gr/webopac/List.csp?SearchT1=%CE%A3%CE%B9%CE%B4%CE%B5%CF%81%CE%AC%CF%84%CE%BF%CF%82%2C+%CE%94%CE%B7%CE%BC%CE%AE%CF%84%CF%81%CE%B9%CE%BF%CF%82&Index1=Keywordsbib&Database=1&SearchMethod=Find_1&SearchTerm1=%CE%A3%CE%B9%CE%B4%CE%B5%CF%81%CE%AC%CF%84%CE%BF%CF%82%2C+%CE%94%CE%B7%CE%BC%CE%AE%CF%84%CF%81%CE%B9%CE%BF%CF%82&OpacLanguage=gre&Profile=Default&EncodedRequest=*C5*EF*1D*97*EF*04w*FC*AD*0C*9Ew*23A*B8*E2&EncodedQuery=*C5*EF*1D*97*EF*04w*FC*AD*0C*9Ew*23A*B8*E2&Source=SysQR&PageType=Start&PreviousList=RecordListFind&WebPageNr=1&NumberToRetrieve=50&WebAction=NewSearch&StartValue=0&RowRepeat=0&ExtraInfo=&SortIndex=Year&SortDirection=-1&Resource=&SavingIndicator=&RestrType=&RestrTerms=&RestrShowAll=&LinkToIndex=
http://hdl.handle.net/11610/8692
Ετικέτες: Προσθήκη ετικέτας
Δεν υπάρχουν, Καταχωρήστε ετικέτα πρώτοι!
_version_ 1828462494080827392
author Σιδεράτος, Δημήτριος
author2 Σταματάτος, Ευστάθιος
author_facet Σταματάτος, Ευστάθιος
Σιδεράτος, Δημήτριος
author_sort Σιδεράτος, Δημήτριος
collection DSpace
description Ο εντοπισμός βανδαλισμών στη Wikipedia είναι ένα θέμα που απασχολεί τη Wikipedia από τη γέννηση της. Η δυνατότητα που δίνει στους χρήστες να μπορούν να τροποποιούν ένα άρθρο ή να γράφουν ένα καινούργιο χωρίς να είναι εγγεγραμμένοι χρήστες την έκανε τη μεγαλύτερη εγκυκλοπαίδεια παγκοσμίως. Για να συνεχίσει όμως την επιτυχή παρουσία της στο διαδίκτυο πρέπει να διασφαλίσει την εγκυρότητα και την ακεραιότητα των πληροφοριών που παρέχει. Η δυνατότητα του να μπορεί ο οποιοσδήποτε να παρεμβαίνει στο περιεχόμενό της μπορεί να της έδωσε τη ταχύτατη ανάπτυξη της, αλλά εμπεριέχει και κινδύνους για την αξιοπιστία των περιεχομένων της, καθώς κάποιοι προβαίνουν σε τροποποιήσεις του περιεχομένου της κακοπροαίρετα. Χάρη στο μέγεθος της που ολοένα και αυξάνεται είναι αδύνατη η επίβλεψη των τροποποιήσεων και ο έλεγχός τους.Είναι προφανής, λοιπόν, η ανάγκη δημιουργίας ενός συστήματος το οποίο θα εποπτεύει τις αλλαγές αυτές. Αυτό το σύστημα θα χρησιμοποιεί αλγόριθμο που θα εντοπίζει τους βανδαλισμούς στις επεξεργασίες που γίνονται. Μέχρι στιγμής οι επικρατέστερες μέθοδοι για τον εντοπισμό των βανδαλισμών στη Wikipedia χρησιμοποιούν μεθόδους Μηχανικής Μάθησης και έχουν παρουσιαστεί στο PAN 2010 και 2011 Vandalism Detection Competition. Βάση αυτού του διαγωνισμού χρησιμοποιήσαμε τα διαθέσιμα σύνολα δεδομένων για να εφαρμόσουμε τη προσέγγισή μας και να τη συγκρίνουμε με αυτές που έχουν υλοποιηθεί ήδη στους διαγωνισμούς. Τα σύνολα των δεδομένων είναι για τρεις γλώσσες, τα Αγγλικά τα Γερμανικά και τα Ισπανικά. Αν και η τάση είναι να φτιαχτεί ένας αλγόριθμος ανεξάρτητος με τη γλώσσα στην οποία έγινε η επεξεργασία, εμείς θα δημιουργήσουμε ταξινομητές για την κάθε γλώσσα προσπαθώντας να εκμεταλλευτούμε τα χαρακτηριστικά της κάθε μιας.Στη διπλωματική εργασία αυτή ασχοληθήκαμε με τη δημιουργία αλγορίθμου που θα εντοπίζει τους βανδαλισμούς βάση της ανάλυσης του κειμένου των άρθρων σε ν-γράμματα και θα χρησιμοποιεί τον SVM αλγόριθμο για την εκπαίδευση, την πρόβλεψη για το βανδαλισμό και τον έλεγχο του αλγορίθμου. Πρόκειται, λοιπόν, για ένα δυαδικό πρόβλημα ταξινόμησης κύριο χαρακτηριστικό του οποίο είναι τα ασύμμετρα σύνολα δεδομένων. Μεγάλη σημασία είχε η επιλογή της μεθόδου που θα ακολουθήσουμε καθώς τα ασύμμετρα σύνολα απαιτούν ειδικό χειρισμό.
id oai:hellanicus.lib.aegean.gr:11610-8692
institution Hellanicus
language Greek
publishDate 2015
record_format dspace
spelling oai:hellanicus.lib.aegean.gr:11610-86922022-10-12T00:00:50Z Εντοπισμός Βανδαλισμών στο Wikipedia Σιδεράτος, Δημήτριος Σταματάτος, Ευστάθιος Εντοπισμός Βανδαλισμών Μηχανές Διανυσμάτων Υποστήριξης Μηχανική μάθηση Εξόρυξη δεδομένων Detection Vandalism Support Vector Machin Machine learning Data mining Wikipedia Machine learning Data mining Ο εντοπισμός βανδαλισμών στη Wikipedia είναι ένα θέμα που απασχολεί τη Wikipedia από τη γέννηση της. Η δυνατότητα που δίνει στους χρήστες να μπορούν να τροποποιούν ένα άρθρο ή να γράφουν ένα καινούργιο χωρίς να είναι εγγεγραμμένοι χρήστες την έκανε τη μεγαλύτερη εγκυκλοπαίδεια παγκοσμίως. Για να συνεχίσει όμως την επιτυχή παρουσία της στο διαδίκτυο πρέπει να διασφαλίσει την εγκυρότητα και την ακεραιότητα των πληροφοριών που παρέχει. Η δυνατότητα του να μπορεί ο οποιοσδήποτε να παρεμβαίνει στο περιεχόμενό της μπορεί να της έδωσε τη ταχύτατη ανάπτυξη της, αλλά εμπεριέχει και κινδύνους για την αξιοπιστία των περιεχομένων της, καθώς κάποιοι προβαίνουν σε τροποποιήσεις του περιεχομένου της κακοπροαίρετα. Χάρη στο μέγεθος της που ολοένα και αυξάνεται είναι αδύνατη η επίβλεψη των τροποποιήσεων και ο έλεγχός τους.Είναι προφανής, λοιπόν, η ανάγκη δημιουργίας ενός συστήματος το οποίο θα εποπτεύει τις αλλαγές αυτές. Αυτό το σύστημα θα χρησιμοποιεί αλγόριθμο που θα εντοπίζει τους βανδαλισμούς στις επεξεργασίες που γίνονται. Μέχρι στιγμής οι επικρατέστερες μέθοδοι για τον εντοπισμό των βανδαλισμών στη Wikipedia χρησιμοποιούν μεθόδους Μηχανικής Μάθησης και έχουν παρουσιαστεί στο PAN 2010 και 2011 Vandalism Detection Competition. Βάση αυτού του διαγωνισμού χρησιμοποιήσαμε τα διαθέσιμα σύνολα δεδομένων για να εφαρμόσουμε τη προσέγγισή μας και να τη συγκρίνουμε με αυτές που έχουν υλοποιηθεί ήδη στους διαγωνισμούς. Τα σύνολα των δεδομένων είναι για τρεις γλώσσες, τα Αγγλικά τα Γερμανικά και τα Ισπανικά. Αν και η τάση είναι να φτιαχτεί ένας αλγόριθμος ανεξάρτητος με τη γλώσσα στην οποία έγινε η επεξεργασία, εμείς θα δημιουργήσουμε ταξινομητές για την κάθε γλώσσα προσπαθώντας να εκμεταλλευτούμε τα χαρακτηριστικά της κάθε μιας.Στη διπλωματική εργασία αυτή ασχοληθήκαμε με τη δημιουργία αλγορίθμου που θα εντοπίζει τους βανδαλισμούς βάση της ανάλυσης του κειμένου των άρθρων σε ν-γράμματα και θα χρησιμοποιεί τον SVM αλγόριθμο για την εκπαίδευση, την πρόβλεψη για το βανδαλισμό και τον έλεγχο του αλγορίθμου. Πρόκειται, λοιπόν, για ένα δυαδικό πρόβλημα ταξινόμησης κύριο χαρακτηριστικό του οποίο είναι τα ασύμμετρα σύνολα δεδομένων. Μεγάλη σημασία είχε η επιλογή της μεθόδου που θα ακολουθήσουμε καθώς τα ασύμμετρα σύνολα απαιτούν ειδικό χειρισμό. Detecting vandalisms in Wikipedia is an issue that has been bothering Wikipedia since its birth. It has become the largest worldwide encyclopedia because it enables users to alter an article or even write a new one without being signed up. In order to continue its successful presence on the web, Wikipedia must ensure the confidentiality and integrity of the provided information. The possibility that anyone can interfere in the contents may have boosted its rapid increase, but it also entails dangers for the contents accuracy, since certain users make alterations to the contents in an improper way. Due to its increasing size, it is impossible to supervise and double –check these edits. Thus, the need for creating a system which will supervise these edits is evident. This system will use an algorithm that will detect vandalisms in the processed data. So far, the most dominant methods for vandalism detection in Wikipedia use the methods of Machine Learning and have been presented in PAN 2010 and 2011 Vandalism Detection competition. Based on this competition we used the available data sets to approach the issue and to compare it with the ones that have already been realized in the competitions. The data sets are for three languages, English, German and Spanish. Although the tendency is to create an algorithm independent to the language in which the process was made, we will create classifiers for every language trying to exploit the characteristics of each one.In this paper we dealt with the creation of an algorithm which will detect vandalisms based on the text analysis of the articles in n-grams and will use the SVM algorithm for the training and testing. It is about a binary classification problem whose main feature is the imbalanced data sets. The choice of the method that we followed was of great importance since imbalanced data demand special treatment. 2015-11-17T10:32:13Z 2015-11-17T10:32:13Z 2013 https://vsmart.lib.aegean.gr/webopac/List.csp?SearchT1=%CE%A3%CE%B9%CE%B4%CE%B5%CF%81%CE%AC%CF%84%CE%BF%CF%82%2C+%CE%94%CE%B7%CE%BC%CE%AE%CF%84%CF%81%CE%B9%CE%BF%CF%82&Index1=Keywordsbib&Database=1&SearchMethod=Find_1&SearchTerm1=%CE%A3%CE%B9%CE%B4%CE%B5%CF%81%CE%AC%CF%84%CE%BF%CF%82%2C+%CE%94%CE%B7%CE%BC%CE%AE%CF%84%CF%81%CE%B9%CE%BF%CF%82&OpacLanguage=gre&Profile=Default&EncodedRequest=*C5*EF*1D*97*EF*04w*FC*AD*0C*9Ew*23A*B8*E2&EncodedQuery=*C5*EF*1D*97*EF*04w*FC*AD*0C*9Ew*23A*B8*E2&Source=SysQR&PageType=Start&PreviousList=RecordListFind&WebPageNr=1&NumberToRetrieve=50&WebAction=NewSearch&StartValue=0&RowRepeat=0&ExtraInfo=&SortIndex=Year&SortDirection=-1&Resource=&SavingIndicator=&RestrType=&RestrTerms=&RestrShowAll=&LinkToIndex= http://hdl.handle.net/11610/8692 el application/pdf Σάμος
spellingShingle Εντοπισμός
Βανδαλισμών
Μηχανές Διανυσμάτων Υποστήριξης
Μηχανική μάθηση
Εξόρυξη δεδομένων
Detection
Vandalism
Support Vector Machin
Machine learning
Data mining
Wikipedia
Machine learning
Data mining
Σιδεράτος, Δημήτριος
Εντοπισμός Βανδαλισμών στο Wikipedia
title Εντοπισμός Βανδαλισμών στο Wikipedia
title_full Εντοπισμός Βανδαλισμών στο Wikipedia
title_fullStr Εντοπισμός Βανδαλισμών στο Wikipedia
title_full_unstemmed Εντοπισμός Βανδαλισμών στο Wikipedia
title_short Εντοπισμός Βανδαλισμών στο Wikipedia
title_sort εντοπισμός βανδαλισμών στο wikipedia
topic Εντοπισμός
Βανδαλισμών
Μηχανές Διανυσμάτων Υποστήριξης
Μηχανική μάθηση
Εξόρυξη δεδομένων
Detection
Vandalism
Support Vector Machin
Machine learning
Data mining
Wikipedia
Machine learning
Data mining
url https://vsmart.lib.aegean.gr/webopac/List.csp?SearchT1=%CE%A3%CE%B9%CE%B4%CE%B5%CF%81%CE%AC%CF%84%CE%BF%CF%82%2C+%CE%94%CE%B7%CE%BC%CE%AE%CF%84%CF%81%CE%B9%CE%BF%CF%82&Index1=Keywordsbib&Database=1&SearchMethod=Find_1&SearchTerm1=%CE%A3%CE%B9%CE%B4%CE%B5%CF%81%CE%AC%CF%84%CE%BF%CF%82%2C+%CE%94%CE%B7%CE%BC%CE%AE%CF%84%CF%81%CE%B9%CE%BF%CF%82&OpacLanguage=gre&Profile=Default&EncodedRequest=*C5*EF*1D*97*EF*04w*FC*AD*0C*9Ew*23A*B8*E2&EncodedQuery=*C5*EF*1D*97*EF*04w*FC*AD*0C*9Ew*23A*B8*E2&Source=SysQR&PageType=Start&PreviousList=RecordListFind&WebPageNr=1&NumberToRetrieve=50&WebAction=NewSearch&StartValue=0&RowRepeat=0&ExtraInfo=&SortIndex=Year&SortDirection=-1&Resource=&SavingIndicator=&RestrType=&RestrTerms=&RestrShowAll=&LinkToIndex=
http://hdl.handle.net/11610/8692
work_keys_str_mv AT sideratosdēmētrios entopismosbandalismōnstowikipedia