Αλγόριθμοι κατάταξης ιστοσελίδων του διαδικτύου στις μηχανές αναζήτησης
Η παρούσα πτυχιακή εργασία έχει ως αντικείμενο μελέτης τη συμβολή των αλγόριθμων στη λειτουργία των Μηχανών Αναζήτησης του διαδικτύου καθώς και στα συστήματα και τις διαδικασίες που αυτές υλοποιούν. Παρουσιάζεται ένα δομικό συστατικό στοιχείο αυτών, ο web crawler ( περιηγητής ) και αναλύεται το πρόβ...
Saved in:
| Main Author: | |
|---|---|
| Other Authors: | |
| Language: | el_GR |
| Published: |
2017
|
| Subjects: | |
| Online Access: | http://catalog.lib.aegean.gr/webopac/FullBB.csp?WebAction=ShowFullBB&EncodedRequest=B*E5*9D*3D*CE*09I*C8*E5S*9C*BC*F0*5D*048&Profile=Default&OpacLanguage=gre&NumberToRetrieve=50&StartValue=1&WebPageNr=1&SearchTerm1=2017.1.114319&SearchT1=&Index1=Keywordsbib&SearchMethod=Find_1&ItemNr=1 http://hdl.handle.net/11610/17728 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Summary: | Η παρούσα πτυχιακή εργασία έχει ως αντικείμενο μελέτης τη συμβολή των αλγόριθμων στη λειτουργία των Μηχανών Αναζήτησης του διαδικτύου καθώς και στα συστήματα και τις διαδικασίες που αυτές υλοποιούν. Παρουσιάζεται ένα δομικό συστατικό στοιχείο αυτών, ο web crawler ( περιηγητής ) και αναλύεται το πρόβλημα της κατάταξης ιστοσελίδων που αντιμετωπίζουν οι web crawlers κατά τη διάρκεια της λειτουργίας τους.
Σε πρώτο στάδιο γίνεται μια ιστορική αναδρομή στην εξελικτική πορεία των συστημάτων ανάκτησης πληροφορίας ( ΣΑΠ ), προγραμμάτων λογισμικού, δηλαδή, που βοηθούν τους χρήστες να αναζητήσουν πληροφορία, μέχρι να λάβουν την σημερινή τους μορφή. Η αρχιτεκτονική των Μηχανών Αναζήτησης περιέχει τρία συστατικά στοιχεία : To web crawling , την αρχειοθέτηση και την αναζήτηση. Το πιο σημαντικό εξ αυτών είναι το πρώτο, καθώς αποτελεί τον τρόπο με τον οποίο μια Μ-Α βρίσκει πληροφορία στο διαδίκτυο, υλοποιώντας ένα πρόγραμμα λογισμικού, τον web crawler. Καίριο ζήτημα εδώ, αποτελεί η σειρά με την οποία ένας crawler ανακαλύπτει τις σελίδες, καθώς διαθέτει περιορισμένους πόρους και πρέπει να εξασφαλίσει μια ικανοποιητική κάλυψη του διαδικτύου προτού σταματήσει η λειτουργία του, ενώ με τη χρήση διαφόρων τεχνικών θα πρέπει να προγραμματίζει την επαναληπτική λήψη σελίδων σε βάθος χρόνου ανα δεσμίδες (batch crawling) ή συνεχόμενα (incremental crawling), έτσι ώστε να διατηρεί το περιεχόμενο του ενημερωμένο. Για την αντιμετώπιση αυτού του προβλήματος αναπτύχθηκαν αλγόριθμοι, με την βοήθεια των οποίων οι crawlers αξιολογούν την αξία της κάθε σελίδας με χρήση διαφόρων μετρικών βάρους , με πιο διαδεδομένη τη μετρική Pagerank. Στην εργασία αναλύονται οι αλγόριθμοι : L-γειτονιάς , Rankmass, Παραθυρικός Rankmass. |
|---|