Ταξινόμηση κειμένων με προσαρμογή προ-εκπαιδευμένων γλωσσικών μοντέλων

Η Ταξινόμηση Κειμένων είναι μια σημαντική μελέτη στον τομέα της εξαγωγής πληροφορίας από κείμενα (Text Mining), έχοντας ένα μεγάλο εύρος εφαρμογής. Τα τελευταία χρόνια, μέσω της εξέλιξης αλγορίθμων νευρωνικών δικτύων (Neural Networks), έχουν αναπτυχθεί πολλές τεχνικές εξαγωγής γλωσσικών μοντέλων α...

Πλήρης περιγραφή

Αποθηκεύτηκε σε:
Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριοι συγγραφείς: Μπόνης, Αθανάσιος, Δημόπουλος, Γεώργιος
Άλλοι συγγραφείς: Σταματάτος, Ευστάθιος
Γλώσσα:el_GR
Δημοσίευση: 2020
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/11610/19676
Ετικέτες: Προσθήκη ετικέτας
Δεν υπάρχουν, Καταχωρήστε ετικέτα πρώτοι!
_version_ 1828462613573402624
author Μπόνης, Αθανάσιος
Δημόπουλος, Γεώργιος
author2 Σταματάτος, Ευστάθιος
author_facet Σταματάτος, Ευστάθιος
Μπόνης, Αθανάσιος
Δημόπουλος, Γεώργιος
author_sort Μπόνης, Αθανάσιος
collection DSpace
description Η Ταξινόμηση Κειμένων είναι μια σημαντική μελέτη στον τομέα της εξαγωγής πληροφορίας από κείμενα (Text Mining), έχοντας ένα μεγάλο εύρος εφαρμογής. Τα τελευταία χρόνια, μέσω της εξέλιξης αλγορίθμων νευρωνικών δικτύων (Neural Networks), έχουν αναπτυχθεί πολλές τεχνικές εξαγωγής γλωσσικών μοντέλων από μεγάλες συλλογές κειμένων γνωστά ως προ-εκπαιδευμένα γλωσσικά μοντέλα (Pre-Trained Language Models), οι οποίες βρίσκουν εφαρμογή σε ποικίλες εργασίες επεξεργασίας φυσικής γλώσσας (Natural Language Processing - NLP). Την συγκεκριμένη χρονική στιγμή, η βέλτιστη πρακτική για ταξινόμηση κειμένων, π.χ. αναγνώριση συγγραφέα, είναι η εφαρμογή των Pre-Trained Language Models με την κατάλληλη προσαρμογή τους (Fine-Tuning). Στην υπάρχουσα εργασία, θα αναλύσουμε και θα εφαρμόσουμε την τεχνική του Universal Language Model Fine Tuning της ερευνητικής ομάδας του fast.ai στον τομέα του NLP, σε διάφορες εφαρμογές της κατηγοριοποιήσης κειμένου, καθώς και σύγκριση με άλλες τεχνικές του FineTuning
id oai:hellanicus.lib.aegean.gr:11610-19676
institution Hellanicus
language el_GR
publishDate 2020
record_format dspace
spelling oai:hellanicus.lib.aegean.gr:11610-196762020-01-13T08:04:34Z Ταξινόμηση κειμένων με προσαρμογή προ-εκπαιδευμένων γλωσσικών μοντέλων Text categorization based on fine-tuning of pre-trained language models Μπόνης, Αθανάσιος Δημόπουλος, Γεώργιος Σταματάτος, Ευστάθιος text-mining NLP authorship-attribution fine-tuning ULMFiT ταξινόμηση κειμένων γλωσσικά μοντέλα ταξινόμηση ιστοσελίδων Data mining Text processing (Computer science) Linguistic models Η Ταξινόμηση Κειμένων είναι μια σημαντική μελέτη στον τομέα της εξαγωγής πληροφορίας από κείμενα (Text Mining), έχοντας ένα μεγάλο εύρος εφαρμογής. Τα τελευταία χρόνια, μέσω της εξέλιξης αλγορίθμων νευρωνικών δικτύων (Neural Networks), έχουν αναπτυχθεί πολλές τεχνικές εξαγωγής γλωσσικών μοντέλων από μεγάλες συλλογές κειμένων γνωστά ως προ-εκπαιδευμένα γλωσσικά μοντέλα (Pre-Trained Language Models), οι οποίες βρίσκουν εφαρμογή σε ποικίλες εργασίες επεξεργασίας φυσικής γλώσσας (Natural Language Processing - NLP). Την συγκεκριμένη χρονική στιγμή, η βέλτιστη πρακτική για ταξινόμηση κειμένων, π.χ. αναγνώριση συγγραφέα, είναι η εφαρμογή των Pre-Trained Language Models με την κατάλληλη προσαρμογή τους (Fine-Tuning). Στην υπάρχουσα εργασία, θα αναλύσουμε και θα εφαρμόσουμε την τεχνική του Universal Language Model Fine Tuning της ερευνητικής ομάδας του fast.ai στον τομέα του NLP, σε διάφορες εφαρμογές της κατηγοριοποιήσης κειμένου, καθώς και σύγκριση με άλλες τεχνικές του FineTuning Text Categorization is an important study in the field of Text-Mining, with a wide range of applications. In recent years, through the development of Neural Networks, many techniques have been developed such as pre-trained language models, which are applicable to Natural Language Processing (NLP). Currently, the best practice for categorizing texts, e.g. writer recognition, is the application of Pre-Trained Language Models through Fine-Tuning. In this research, we analyze and present the application of the Universal Language Model Fine Tuning technique (ULMFiT) in some text categorization applications, which is developed by NLP's fast.ai research team. Furthermore, we compare this technique with others, and we conclude, presenting the results of this comparison. 2020-01-09T08:56:22Z 2020-01-09T08:56:22Z 2019-09-26 http://hdl.handle.net/11610/19676 el_GR CC0 1.0 Παγκόσμια http://creativecommons.org/publicdomain/zero/1.0/ 105 σ. application/pdf Σάμος
spellingShingle text-mining
NLP
authorship-attribution
fine-tuning
ULMFiT
ταξινόμηση κειμένων
γλωσσικά μοντέλα
ταξινόμηση ιστοσελίδων
Data mining
Text processing (Computer science)
Linguistic models
Μπόνης, Αθανάσιος
Δημόπουλος, Γεώργιος
Ταξινόμηση κειμένων με προσαρμογή προ-εκπαιδευμένων γλωσσικών μοντέλων
title Ταξινόμηση κειμένων με προσαρμογή προ-εκπαιδευμένων γλωσσικών μοντέλων
title_full Ταξινόμηση κειμένων με προσαρμογή προ-εκπαιδευμένων γλωσσικών μοντέλων
title_fullStr Ταξινόμηση κειμένων με προσαρμογή προ-εκπαιδευμένων γλωσσικών μοντέλων
title_full_unstemmed Ταξινόμηση κειμένων με προσαρμογή προ-εκπαιδευμένων γλωσσικών μοντέλων
title_short Ταξινόμηση κειμένων με προσαρμογή προ-εκπαιδευμένων γλωσσικών μοντέλων
title_sort ταξινόμηση κειμένων με προσαρμογή προ εκπαιδευμένων γλωσσικών μοντέλων
topic text-mining
NLP
authorship-attribution
fine-tuning
ULMFiT
ταξινόμηση κειμένων
γλωσσικά μοντέλα
ταξινόμηση ιστοσελίδων
Data mining
Text processing (Computer science)
Linguistic models
url http://hdl.handle.net/11610/19676
work_keys_str_mv AT mponēsathanasios taxinomēsēkeimenōnmeprosarmogēproekpaideumenōnglōssikōnmontelōn
AT dēmopoulosgeōrgios taxinomēsēkeimenōnmeprosarmogēproekpaideumenōnglōssikōnmontelōn
AT mponēsathanasios textcategorizationbasedonfinetuningofpretrainedlanguagemodels
AT dēmopoulosgeōrgios textcategorizationbasedonfinetuningofpretrainedlanguagemodels