Distributed intelligent crawlers : πτυχιακή εργασία

Το μεγάλο μέγεθος και η δυναμική φύση του διαδικτύου, καθιστούν αναγκαία τη συνεχή ενημέρωση των web-based συστημάτων εξόρυξης γνώσης. Το διαδίκτυο είναι ένας χώρος που παραδοσιακά οι μηχανισμοί εξόρυξης γνώσης είναι υπό ανάπτυξη. Οι μηχανισμοί διάσχισης (Crawlers), αντιπροσωπεύουν την διαδικασία κα...

Πλήρης περιγραφή

Αποθηκεύτηκε σε:
Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Κατσίμπρας, Γεώργιος
Συγγραφή απο Οργανισμό/Αρχή: Πανεπιστήμιο Αιγαίου. Σχολή Θετικών Επιστημών. Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων
Μορφή: Thesis Βιβλίο
Γλώσσα:English
Δημοσίευση: 2010.
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/11610/8855
Ετικέτες: Προσθήκη ετικέτας
Δεν υπάρχουν, Καταχωρήστε ετικέτα πρώτοι!
Περιγραφή
Περίληψη:Το μεγάλο μέγεθος και η δυναμική φύση του διαδικτύου, καθιστούν αναγκαία τη συνεχή ενημέρωση των web-based συστημάτων εξόρυξης γνώσης. Το διαδίκτυο είναι ένας χώρος που παραδοσιακά οι μηχανισμοί εξόρυξης γνώσης είναι υπό ανάπτυξη. Οι μηχανισμοί διάσχισης (Crawlers), αντιπροσωπεύουν την διαδικασία κατά την οποία ακολουθούνται οι σύνδεσμοι σε μία ιστοσελίδα, για την εξόρυξη γνώσης από αυτούς. Η διάσχιση ολόκληρου του διαδικτύου φαντάζει αδύνατη, αφού πρόκειται για εκατομμύρια ιστοσελίδες. Πολλαπλοί μηχανισμοί διάσχιση που θα λειτουργούν παράλληλα μπορούν να κατανείμουν τον φόρτο εργασίας πιο ομαλά. Σε αυτή τη πτυχιακή εργασία, μελετούμε διαφορετικές τεχνικές και προσεγγίσεις απλής διάσχισης αλλά και κατανεμημένων συστημάτων διάσχισης του διαδικτύου, περιλαμβανομένων και ζητημάτων σχετικά με την υλοποίηση τέτοιων συστημάτων. Σχεδιάζουμε ένα νέο μοντέλο και μία καινούρια αρχιτεκτονική για ένα κατανεμημένο σύστημα διάσχισης του διαδικτύου που χρησιμοποιεί έναν έξυπνο αλγόριθμο ταξινόμησης ιστοσελίδων (με βάση το βαθμό σημαντικότητας μίας ιστοσελίδας) ο οποίος βασίζεται σε στατιστικές πληροφορίες που συγκεντρώνονται κατά τη διάσχιση. Υλοποιούμε τον σχεδιασμό αυτόν σε Python/Twisted, κάνοντας χρήση XML-RPC για την κατανομή του φόρτου εργασίας και Memcached για την αποθήκευση των δεδομένων. Δοκιμάζουμε την απόδοση του προτεινόμενου συστήματος και παρουσιάζουμε τα αποτελέσματα.
Φυσική περιγραφή:viii, 67 σ. : εικ., πιν. ; 30 εκ.
Βιβλιογραφία:Βιβλιογραφία: σ. 66-67.
Πρόσβαση:Διάθεση πλήρους κειμένου - Ελεύθερη πρόσβαση.