Genre detection of web documents : μεταπτυχιακή διατριβή

Ο στόχος αυτής της εργασίας είναι η διερεύνηση τρόπων κατηγοριοποίησης Ιστοσελίδων του διαδικτύου με βάση το είδος τους. Η προσέγγιση που προτείνεται εδώ είαι να χρησιμοποιηθούν ως μέσο αναπαράστασης των ιστοσελίδων ν-γράμματα χαρακτήρων και HTML-tags και στην συνέχεια να γίνει κατηγοριοποίηση των δ...

Full description

Saved in:
Bibliographic Details
Main Author: Κανάρης, Ιωάννης
Corporate Author: Πανεπιστήμιο Αιγαίου. Σχολή Θετικών Επιστημών. Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων. Π.Μ.Σ. Τεχνολογίες και Διοίκηση Πληροφοριακών και Επικοινωνιακών Συστημάτων
Format: Thesis Book
Language:English
Published: 2007.
Subjects:
Online Access:http://hdl.handle.net/11610/12608
Tags: Add Tag
No Tags, Be the first to tag this record!
Description
Summary:Ο στόχος αυτής της εργασίας είναι η διερεύνηση τρόπων κατηγοριοποίησης Ιστοσελίδων του διαδικτύου με βάση το είδος τους. Η προσέγγιση που προτείνεται εδώ είαι να χρησιμοποιηθούν ως μέσο αναπαράστασης των ιστοσελίδων ν-γράμματα χαρακτήρων και HTML-tags και στην συνέχεια να γίνει κατηγοριοποίηση των δειγμάτων από ένα αυτόματο σύστημα μηχανικής μάθησης.
The aim of this Thesis is to understand how genre is instantiated on the web, and thereby to develop automatic methods for genre identification in web pages. Modern search engines mostly rely on finding specific terms in web documents. But searching the Web based only on topic or terms, is not very efficient because it produces large amounts of results mostly due to lack of genre categorization. Genre is defined as a taxonomy that incorporates the style, form and content of a document which is orthogonal to topic, with fuzzy classification to multiple genres. Many approaches have been made so far in this area, incorporating sophisticated data mining methods. In this Thesis, a low-level approach is introduced based on character N-gram, Words and HTML Tags frequencies to describe web pages. Experiments are conducted upon three publicly available corpora in order to have results that can be compared to other works in this field in order to give a better view of the problem.
Item Description:Μέλη της εξεταστικής επιτροπής: Efstathios Stamatatos, Georgios Vouros, Ergina Kavallieratou.
Physical Description:iv, 59 σ. : πιν. ,σχέδια ; 30 εκ.
Bibliography:Βιβλιογραφία: σ. 58-59.
Access:Διάθεση πλήρους κειμένου - Ελεύθερη πρόσβαση.