Εξόρυξη γνώσης από δεδομένα με διατήρηση της ιδιωτικότητας χρησιμοποιώντας νευρωνικά δίκτυα RBF για οριζόντια κατατετμημένα δεδομένα σε περιβάλλον μη έμπιστων χρηστών

Η εξόρυξη γνώσης από δεδομένα αποσκοπεί στην ανακάλυψη (ή αποκάλυψη καλύτερα) συσχετίσεων μεταξύ δεδομένων, που δίνονται συνήθως σε μορφή πινάκων. Η εξόρυξη γνώσης μπορεί να έχει κάθε φορά διαφορετικό σκοπό, όπως την πρόβλεψη κάποιας τιμής (classification) , την ταξινόμηση των δεδομένων σε n το πλήθ...

Πλήρης περιγραφή

Αποθηκεύτηκε σε:
Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Παντελή, Αλέξανδρος - Δημήτριος
Άλλοι συγγραφείς: Μαραγκουδάκης, Εμμανουήλ
Γλώσσα:Greek
Δημοσίευση: 2015
Θέματα:
Διαθέσιμο Online:http://catalog.lib.aegean.gr/webopac/FullBB.csp?WebAction=ShowFullBB&EncodedRequest=*FE*22S*3E*AD*1A*84*EF*2Cm*E9*DDqtQ8&Profile=Default&OpacLanguage=gre&NumberToRetrieve=50&StartValue=1&WebPageNr=1&SearchTerm1=2011.1.14162&SearchT1=&Index1=Keywordsbib&SearchMethod=Find_1&ItemNr=1
http://hdl.handle.net/11610/8843
Ετικέτες: Προσθήκη ετικέτας
Δεν υπάρχουν, Καταχωρήστε ετικέτα πρώτοι!
_version_ 1828462498929442816
author Παντελή, Αλέξανδρος - Δημήτριος
author2 Μαραγκουδάκης, Εμμανουήλ
author_facet Μαραγκουδάκης, Εμμανουήλ
Παντελή, Αλέξανδρος - Δημήτριος
author_sort Παντελή, Αλέξανδρος - Δημήτριος
collection DSpace
description Η εξόρυξη γνώσης από δεδομένα αποσκοπεί στην ανακάλυψη (ή αποκάλυψη καλύτερα) συσχετίσεων μεταξύ δεδομένων, που δίνονται συνήθως σε μορφή πινάκων. Η εξόρυξη γνώσης μπορεί να έχει κάθε φορά διαφορετικό σκοπό, όπως την πρόβλεψη κάποιας τιμής (classification) , την ταξινόμηση των δεδομένων σε n το πλήθος κατηγοριών (clustering) και την ανακάλυψη συσχετίσεων μεταξύ δεδομένων σε μορφή κανόνων (association rule discovery). Οι μεθοδολογίες αυτές χρησιμοποιούνται σε πάρα πολλούς τομείς από τα οικονομικά μέχρι την ιατρική, και σε συνδυασμό με την ανάγκη μεγάλου όγκου δεδομένων για υψηλή ακρίβεια των αποτελεσμάτων οδηγεί στο κρίσιμο ζήτημα της προστασίας της ιδιωτικότητας των δεδομένων αυτών. Για παράδειγμα αν δύο νοσοκομεία θέλουν να δουν αν υπάρχει συσχέτιση μεταξύ κάποιων συμπτωμάτων/ασθενειών και περιβαλλοντικών αιτιών (π.χ. δίαιτα, τόπος διαμονής κ.α.), για να έχει μεγάλη ακρίβεια το μοντέλο θα πρέπει να υπολογιστεί πάνω στο σύνολο των δεδομένων ενώ προφανώς δεν θα πρέπει το ένα νοσοκομείο να μάθει πληροφορίες για τους ασθενείς του άλλου. Σε αυτή την εργασία παρουσιάζεται ένας αλγόριθμος πολυωνυμικής πολυπλοκότητας (O(1) σε σχέση με τον μη ιδιωτικό υπολογισμό) για τον υπολογισμό ενός μοντέλου RBF (για όλες τα kernel) για την εξόρυξη γνώσης από δεδομένα μεταξύ δύο χρηστών. Συγκεκριμένα το πρωτόκολλο αυτό χρησιμοποιείται για ταξινόμηση/παλινδρόμηση σε οριζόντια κατατετμημένα δεδομένα. Η ιδιωτικότητα των δεδομένων του κάθε χρήστη διατηρείται χωρίς υποθέσεις για την «τιμιότητα» των χρηστών, δηλαδή δεν γίνεται υπόθεση semi-trusted εμπλεκομένων αλλά πλήρως κακόβουλων. Στη συνέχεια παρουσιάζεται η επέκταση του πρωτοκόλλου για χρήση από Ν το πλήθος χρήστες, ανάλυση χρονικής πολυπλοκότητας και επικοινωνιακής επιβάρυνσης και μελέτη της ασφάλειας (ιδιωτικότητας) που προσφέρεται. Εν τέλει παρουσιάζονται πειραματικά αποτελέσματα απόδοσης του όσο αφορά την ακρίβεια/αναακληση και χρόνο εκτέλεσης χρησιμοποιώντας ένα πραγματικό σύνολο δεδομένων.
id oai:hellanicus.lib.aegean.gr:11610-8843
institution Hellanicus
language Greek
publishDate 2015
record_format dspace
spelling oai:hellanicus.lib.aegean.gr:11610-88432025-02-08T02:06:33Z Εξόρυξη γνώσης από δεδομένα με διατήρηση της ιδιωτικότητας χρησιμοποιώντας νευρωνικά δίκτυα RBF για οριζόντια κατατετμημένα δεδομένα σε περιβάλλον μη έμπιστων χρηστών Παντελή, Αλέξανδρος - Δημήτριος Μαραγκουδάκης, Εμμανουήλ Ταξινόμηση δεδομένων Διατήρηση ιδιωτικότητας Νευρωνικά δίκτυα RBF networks Data mining Privacy Data mining Neural networks (Computer science) Privacy, Right of Η εξόρυξη γνώσης από δεδομένα αποσκοπεί στην ανακάλυψη (ή αποκάλυψη καλύτερα) συσχετίσεων μεταξύ δεδομένων, που δίνονται συνήθως σε μορφή πινάκων. Η εξόρυξη γνώσης μπορεί να έχει κάθε φορά διαφορετικό σκοπό, όπως την πρόβλεψη κάποιας τιμής (classification) , την ταξινόμηση των δεδομένων σε n το πλήθος κατηγοριών (clustering) και την ανακάλυψη συσχετίσεων μεταξύ δεδομένων σε μορφή κανόνων (association rule discovery). Οι μεθοδολογίες αυτές χρησιμοποιούνται σε πάρα πολλούς τομείς από τα οικονομικά μέχρι την ιατρική, και σε συνδυασμό με την ανάγκη μεγάλου όγκου δεδομένων για υψηλή ακρίβεια των αποτελεσμάτων οδηγεί στο κρίσιμο ζήτημα της προστασίας της ιδιωτικότητας των δεδομένων αυτών. Για παράδειγμα αν δύο νοσοκομεία θέλουν να δουν αν υπάρχει συσχέτιση μεταξύ κάποιων συμπτωμάτων/ασθενειών και περιβαλλοντικών αιτιών (π.χ. δίαιτα, τόπος διαμονής κ.α.), για να έχει μεγάλη ακρίβεια το μοντέλο θα πρέπει να υπολογιστεί πάνω στο σύνολο των δεδομένων ενώ προφανώς δεν θα πρέπει το ένα νοσοκομείο να μάθει πληροφορίες για τους ασθενείς του άλλου. Σε αυτή την εργασία παρουσιάζεται ένας αλγόριθμος πολυωνυμικής πολυπλοκότητας (O(1) σε σχέση με τον μη ιδιωτικό υπολογισμό) για τον υπολογισμό ενός μοντέλου RBF (για όλες τα kernel) για την εξόρυξη γνώσης από δεδομένα μεταξύ δύο χρηστών. Συγκεκριμένα το πρωτόκολλο αυτό χρησιμοποιείται για ταξινόμηση/παλινδρόμηση σε οριζόντια κατατετμημένα δεδομένα. Η ιδιωτικότητα των δεδομένων του κάθε χρήστη διατηρείται χωρίς υποθέσεις για την «τιμιότητα» των χρηστών, δηλαδή δεν γίνεται υπόθεση semi-trusted εμπλεκομένων αλλά πλήρως κακόβουλων. Στη συνέχεια παρουσιάζεται η επέκταση του πρωτοκόλλου για χρήση από Ν το πλήθος χρήστες, ανάλυση χρονικής πολυπλοκότητας και επικοινωνιακής επιβάρυνσης και μελέτη της ασφάλειας (ιδιωτικότητας) που προσφέρεται. Εν τέλει παρουσιάζονται πειραματικά αποτελέσματα απόδοσης του όσο αφορά την ακρίβεια/αναακληση και χρόνο εκτέλεσης χρησιμοποιώντας ένα πραγματικό σύνολο δεδομένων. The purpose of data mining is the discovery of relations between data usually given in the form of matrices. Data mining methods can have a variety of purposes, such as the prediction of a value that is known to be a function of the data (classification), the grouping of the available data points to a number of groups which represent similar data points (clustering) or the discovery of rules that link data points between them (association rule discovery). The aforementioned methods are used in a wide variety of fields from economics to medicine, and combined with the need for a substantially large volume of data in order to maximize the methods’ accuracy, protecting the privacy of said data is a critical matter that has to be resolved. For example if two hospitals want to examine the relation between a number of symptoms and environmental factors (diet or climate for example), the predictive/association model has to be computed on the union of their data while keeping the privacy of the records of each hospital. This dissertation presents a polynomial time complexity protocol (O(1) in relation to non private computing) for the computation of the RBF network data mining model (all kernels). Specifically this protocol is used for the regression/classification on horizontally partitioned data. The privacy of each user’s data is preserved without any assumptions on the honesty of the rest of the users; this is to say that the malicious model is asserted. In the first chapter an introduction to RBF networks data mining is made and related privacy preserving data mining work is presented. The final part of the first chapter is a table of definitions and notation used throughout this dissertation. The second chapter offers an analysis of the problem that needs to be solved and the difficulties that need to be surpassed. Conclusion of this chapter is that the solution is not as straightforward as it originally seems and key observations are made on the nature of the problem. Using the results from the previous chapter a privacy preserving data mining protocol for two users is presented. The second part of chapter three expands this protocol for usage by N users and concludes with an example of usage. Chapter four focuses on the time complexity and communication overhead of the proposed protocol and compares it to a non-private computation. Continuing, the next chapter, chapter five offers an analysis of how secure is the proposed protocol, beyond some small notes on availability and other security demands the majority of the chapter discusses the issue of privacy. In this chapter various parameters and a sub-protocol used by the privacy preserving protocol (as presented in chapter three) are discussed. The sixth chapter presents the expected consequences the use of the proposed protocol has on the precision/recall percentages of the final classification/regression model. Beyond empirical observations a number of similar studies are referenced that show that for a variety of problems the constraints imposed by the proposed protocol have no effect on the precision/recall percentages. Chapter seven presents the experimental design and methodology used as well as the software developed that uses the proposed protocol. The data that were used for the experiments and the results obtained are also part of this chapter. Finally, the last chapter concludes this dissertation with a recapitulation of the basic features, advantages and disadvantages of the proposed protocol. This list of disadvantages can be the basis of future work on this subject and are mentioned as such. 2015-11-17T10:32:34Z 2015-11-17T10:32:34Z 2011 http://catalog.lib.aegean.gr/webopac/FullBB.csp?WebAction=ShowFullBB&EncodedRequest=*FE*22S*3E*AD*1A*84*EF*2Cm*E9*DDqtQ8&Profile=Default&OpacLanguage=gre&NumberToRetrieve=50&StartValue=1&WebPageNr=1&SearchTerm1=2011.1.14162&SearchT1=&Index1=Keywordsbib&SearchMethod=Find_1&ItemNr=1 http://hdl.handle.net/11610/8843 el application/pdf Σάμος
spellingShingle Ταξινόμηση δεδομένων
Διατήρηση ιδιωτικότητας
Νευρωνικά δίκτυα
RBF networks
Data mining
Privacy
Data mining
Neural networks (Computer science)
Privacy, Right of
Παντελή, Αλέξανδρος - Δημήτριος
Εξόρυξη γνώσης από δεδομένα με διατήρηση της ιδιωτικότητας χρησιμοποιώντας νευρωνικά δίκτυα RBF για οριζόντια κατατετμημένα δεδομένα σε περιβάλλον μη έμπιστων χρηστών
title Εξόρυξη γνώσης από δεδομένα με διατήρηση της ιδιωτικότητας χρησιμοποιώντας νευρωνικά δίκτυα RBF για οριζόντια κατατετμημένα δεδομένα σε περιβάλλον μη έμπιστων χρηστών
title_full Εξόρυξη γνώσης από δεδομένα με διατήρηση της ιδιωτικότητας χρησιμοποιώντας νευρωνικά δίκτυα RBF για οριζόντια κατατετμημένα δεδομένα σε περιβάλλον μη έμπιστων χρηστών
title_fullStr Εξόρυξη γνώσης από δεδομένα με διατήρηση της ιδιωτικότητας χρησιμοποιώντας νευρωνικά δίκτυα RBF για οριζόντια κατατετμημένα δεδομένα σε περιβάλλον μη έμπιστων χρηστών
title_full_unstemmed Εξόρυξη γνώσης από δεδομένα με διατήρηση της ιδιωτικότητας χρησιμοποιώντας νευρωνικά δίκτυα RBF για οριζόντια κατατετμημένα δεδομένα σε περιβάλλον μη έμπιστων χρηστών
title_short Εξόρυξη γνώσης από δεδομένα με διατήρηση της ιδιωτικότητας χρησιμοποιώντας νευρωνικά δίκτυα RBF για οριζόντια κατατετμημένα δεδομένα σε περιβάλλον μη έμπιστων χρηστών
title_sort εξόρυξη γνώσης από δεδομένα με διατήρηση της ιδιωτικότητας χρησιμοποιώντας νευρωνικά δίκτυα rbf για οριζόντια κατατετμημένα δεδομένα σε περιβάλλον μη έμπιστων χρηστών
topic Ταξινόμηση δεδομένων
Διατήρηση ιδιωτικότητας
Νευρωνικά δίκτυα
RBF networks
Data mining
Privacy
Data mining
Neural networks (Computer science)
Privacy, Right of
url http://catalog.lib.aegean.gr/webopac/FullBB.csp?WebAction=ShowFullBB&EncodedRequest=*FE*22S*3E*AD*1A*84*EF*2Cm*E9*DDqtQ8&Profile=Default&OpacLanguage=gre&NumberToRetrieve=50&StartValue=1&WebPageNr=1&SearchTerm1=2011.1.14162&SearchT1=&Index1=Keywordsbib&SearchMethod=Find_1&ItemNr=1
http://hdl.handle.net/11610/8843
work_keys_str_mv AT pantelēalexandrosdēmētrios exoryxēgnōsēsapodedomenamediatērēsētēsidiōtikotētaschrēsimopoiōntasneurōnikadiktyarbfgiaorizontiakatatetmēmenadedomenaseperiballonmēempistōnchrēstōn