Market surveillance from product's reviews using semantic similarity measures, BERT, VADER, and Natural Language Processing

Στο δυναμικό τοπίο των ψηφιακών πληροφοριών, η αποτελεσματική επεξεργασία και η εξαγωγή ουσιαστικών πληροφοριών από σύνολα δεδομένων αποκτά ολοένα και μεγαλύτερη σημασία. Η παρούσα διπλωματική ασχολείται με την αποτελεσματικότητα της εποπτείας της αγοράς μέσω της ανάλυσης των αξιολογήσεων των χρηστώ...

Full description

Saved in:
Bibliographic Details
Main Authors: Θεοχαρίδης, Θεοχάρης, Theocharidis, Theocharis
Other Authors: Συμεωνίδης, Παναγιώτης
Language:English
Published: 2024
Subjects:
Online Access:http://hdl.handle.net/11610/26694
Tags: Add Tag
No Tags, Be the first to tag this record!
_version_ 1828461864359559168
author Θεοχαρίδης, Θεοχάρης
Theocharidis, Theocharis
author2 Συμεωνίδης, Παναγιώτης
author_facet Συμεωνίδης, Παναγιώτης
Θεοχαρίδης, Θεοχάρης
Theocharidis, Theocharis
author_sort Θεοχαρίδης, Θεοχάρης
collection DSpace
description Στο δυναμικό τοπίο των ψηφιακών πληροφοριών, η αποτελεσματική επεξεργασία και η εξαγωγή ουσιαστικών πληροφοριών από σύνολα δεδομένων αποκτά ολοένα και μεγαλύτερη σημασία. Η παρούσα διπλωματική ασχολείται με την αποτελεσματικότητα της εποπτείας της αγοράς μέσω της ανάλυσης των αξιολογήσεων των χρηστών, του συνδυασμού μέτρων Σημασιολογικής Ομοιότητας (ΣΟ) με τεχνικές επεξεργασίας φυσικής γλώσσας (NLP) και της απόδοσης των προτεινόμενων αλγορίθμων σε σενάρια πραγματικού κόσμου. Διερευνά την ανάπτυξη και εφαρμογή αλγορίθμων που αξιοποιούν μέτρα ΣΟ και τεχνικές NLP για την ανάλυση δεδομέ-νων κειμένου, ιδίως κριτικές χρηστών και αξιολογήσεις προϊόντων. Με την ποσοτικοποίηση της ΣΟ μεταξύ λέξεων και φράσεων, τα μέτρα αυτά επιτρέπουν μια βαθύτερη σημασιολογική κατανόηση, διευκολύνοντας την εξαγωγή συμπερασμάτων που είναι κρίσιμης σημασίας για την αξιολόγηση της ασφάλειας και της καταλληλό-τητας των προϊόντων με βάση τα σχόλια των χρηστών. Παρουσιάζεται μια ολοκληρωμένη μεθοδολογία, από τη συλλογή και προεπεξεργασία δεδομένων, έως την εφαρμογή μέτρων ΣΟ μέσω προτεινόμενων αλγορίθμων. Η αποτελεσματικότητα αυτών των αλγορίθμων αποδεικνύεται μέσω πειραμάτων, τόσο σε συνθετικά όσο και σε πραγματικά σύνολα δεδομένων, συγκεκριμένα σε κριτικές προϊόντων Amazon στην κατηγορία "Toys and Games". Επιπλέον, αυτή η μελέτη ενσωματώνει τη χρήση προηγμένων μοντέλων NLP, όπως BERT και VADER, παρέχοντας μια συγκριτική ανάλυση της απόδοσής τους σε σύγκριση με τους προτεινόμενους αλγορίθμους. Προτείνονται μελλοντικές κατευθύνσεις για την ενίσχυση των αλγορίθμων και την επέκταση της εφαρμογής τους σε άλλους τομείς, όπως η ενσωμάτωση προηγμένων LLM και της τεχνικής Retrieval-Augmented Generation (RAG) για τη βελτίωση της ακρίβειας και της συνάφειας της ανάλυσης κειμένου.
id oai:hellanicus.lib.aegean.gr:11610-26694
institution Hellanicus
language English
publishDate 2024
record_format dspace
spelling oai:hellanicus.lib.aegean.gr:11610-266942024-08-27T05:02:29Z Market surveillance from product's reviews using semantic similarity measures, BERT, VADER, and Natural Language Processing Επιτήρηση της αγοράς μέσα από τις κριτικές προϊόντων, με τη χρήση μέτρων σημασιολογικής ομοιότητας, των μοντέλων BERT και VADER και Επεξεργασία Φυσικής Γλώσσας Θεοχαρίδης, Θεοχάρης Theocharidis, Theocharis Συμεωνίδης, Παναγιώτης Διαδίκτυο των Πραγμάτων: Ευφυή Περιβάλλοντα σε Δίκτυα Νέας Γενιά σημασιολογική ομοιότητα μέτρα σημασιολογικής ομοιότητας επιτήρηση αγοράς ασφάλεια προϊόντων επεξεργασία φυσικής γλώσσας μεγάλα γλωσσικά μοντέλα semantic similarity semantic similarity measures BERT VADER natural language processing (NLP) market surveillance user reviews product safety large language models retrieval-augmented generation Natural language processing (Computer science) Semantic computing Machine learning Artificial intelligence Product safety Στο δυναμικό τοπίο των ψηφιακών πληροφοριών, η αποτελεσματική επεξεργασία και η εξαγωγή ουσιαστικών πληροφοριών από σύνολα δεδομένων αποκτά ολοένα και μεγαλύτερη σημασία. Η παρούσα διπλωματική ασχολείται με την αποτελεσματικότητα της εποπτείας της αγοράς μέσω της ανάλυσης των αξιολογήσεων των χρηστών, του συνδυασμού μέτρων Σημασιολογικής Ομοιότητας (ΣΟ) με τεχνικές επεξεργασίας φυσικής γλώσσας (NLP) και της απόδοσης των προτεινόμενων αλγορίθμων σε σενάρια πραγματικού κόσμου. Διερευνά την ανάπτυξη και εφαρμογή αλγορίθμων που αξιοποιούν μέτρα ΣΟ και τεχνικές NLP για την ανάλυση δεδομέ-νων κειμένου, ιδίως κριτικές χρηστών και αξιολογήσεις προϊόντων. Με την ποσοτικοποίηση της ΣΟ μεταξύ λέξεων και φράσεων, τα μέτρα αυτά επιτρέπουν μια βαθύτερη σημασιολογική κατανόηση, διευκολύνοντας την εξαγωγή συμπερασμάτων που είναι κρίσιμης σημασίας για την αξιολόγηση της ασφάλειας και της καταλληλό-τητας των προϊόντων με βάση τα σχόλια των χρηστών. Παρουσιάζεται μια ολοκληρωμένη μεθοδολογία, από τη συλλογή και προεπεξεργασία δεδομένων, έως την εφαρμογή μέτρων ΣΟ μέσω προτεινόμενων αλγορίθμων. Η αποτελεσματικότητα αυτών των αλγορίθμων αποδεικνύεται μέσω πειραμάτων, τόσο σε συνθετικά όσο και σε πραγματικά σύνολα δεδομένων, συγκεκριμένα σε κριτικές προϊόντων Amazon στην κατηγορία "Toys and Games". Επιπλέον, αυτή η μελέτη ενσωματώνει τη χρήση προηγμένων μοντέλων NLP, όπως BERT και VADER, παρέχοντας μια συγκριτική ανάλυση της απόδοσής τους σε σύγκριση με τους προτεινόμενους αλγορίθμους. Προτείνονται μελλοντικές κατευθύνσεις για την ενίσχυση των αλγορίθμων και την επέκταση της εφαρμογής τους σε άλλους τομείς, όπως η ενσωμάτωση προηγμένων LLM και της τεχνικής Retrieval-Augmented Generation (RAG) για τη βελτίωση της ακρίβειας και της συνάφειας της ανάλυσης κειμένου. This dissertation addresses the effectiveness of market surveillance through user review analysis, the combination of semantic similarity (SemSim) measures with Natural Language Processing (NLP) techniques, and the performance of the proposed algorithms in real-world scenarios. It explores the development and application of algorithms leveraging semantic similarity measures and NLP techniques to analyze textual data, particularly user reviews and product evaluations. By quantifying the SemSim between words and phrases, these measures enable a deeper semantic understanding, facilitating the drawing of conclusions, crucial for evaluating product safety and suitability based on user feedback. This dissertation presents a comprehensive methodology, from data collection and preprocessing to the application of semantic similarity measures through proposed algorithms. The effectiveness of these algorithms is demonstrated through experiments on both synthetic and real-world datasets, specifically Amazon product reviews in the category 'Toys and Games'. The results reveal the strengths and limitations of different semantic similarity measures in categorizing and interpreting user reviews. Additionally, this study incorporates the use of advanced NLP models such as BERT and VADER, providing a comparative analysis of their performance alongside the proposed algorithms. Future directions for enhancing the algorithms and expanding their applicability to other domains are also outlined, including the integration of advanced Large Language Models (LLMs) and the Retrieval-Augmented Generation (RAG) technique to improve the accuracy and relevance of textual analysis. 2024-07-31T09:57:33Z 2024-07-31T09:57:33Z 2024-07-24 http://hdl.handle.net/11610/26694 en Αναφορά Δημιουργού - Παρόμοια Διανομή 4.0 Διεθνές http://creativecommons.org/licenses/by-sa/4.0/ 95 σ. application/pdf Σάμος
spellingShingle σημασιολογική ομοιότητα
μέτρα σημασιολογικής ομοιότητας
επιτήρηση αγοράς
ασφάλεια προϊόντων
επεξεργασία φυσικής γλώσσας
μεγάλα γλωσσικά μοντέλα
semantic similarity
semantic similarity measures
BERT
VADER
natural language processing (NLP)
market surveillance
user reviews
product safety
large language models
retrieval-augmented generation
Natural language processing (Computer science)
Semantic computing
Machine learning
Artificial intelligence
Product safety
Θεοχαρίδης, Θεοχάρης
Theocharidis, Theocharis
Market surveillance from product's reviews using semantic similarity measures, BERT, VADER, and Natural Language Processing
title Market surveillance from product's reviews using semantic similarity measures, BERT, VADER, and Natural Language Processing
title_full Market surveillance from product's reviews using semantic similarity measures, BERT, VADER, and Natural Language Processing
title_fullStr Market surveillance from product's reviews using semantic similarity measures, BERT, VADER, and Natural Language Processing
title_full_unstemmed Market surveillance from product's reviews using semantic similarity measures, BERT, VADER, and Natural Language Processing
title_short Market surveillance from product's reviews using semantic similarity measures, BERT, VADER, and Natural Language Processing
title_sort market surveillance from product s reviews using semantic similarity measures bert vader and natural language processing
topic σημασιολογική ομοιότητα
μέτρα σημασιολογικής ομοιότητας
επιτήρηση αγοράς
ασφάλεια προϊόντων
επεξεργασία φυσικής γλώσσας
μεγάλα γλωσσικά μοντέλα
semantic similarity
semantic similarity measures
BERT
VADER
natural language processing (NLP)
market surveillance
user reviews
product safety
large language models
retrieval-augmented generation
Natural language processing (Computer science)
Semantic computing
Machine learning
Artificial intelligence
Product safety
url http://hdl.handle.net/11610/26694
work_keys_str_mv AT theocharidēstheocharēs marketsurveillancefromproductsreviewsusingsemanticsimilaritymeasuresbertvaderandnaturallanguageprocessing
AT theocharidistheocharis marketsurveillancefromproductsreviewsusingsemanticsimilaritymeasuresbertvaderandnaturallanguageprocessing
AT theocharidēstheocharēs epitērēsētēsagorasmesaapotiskritikesproïontōnmetēchrēsēmetrōnsēmasiologikēsomoiotētastōnmontelōnbertkaivaderkaiepexergasiaphysikēsglōssas
AT theocharidistheocharis epitērēsētēsagorasmesaapotiskritikesproïontōnmetēchrēsēmetrōnsēmasiologikēsomoiotētastōnmontelōnbertkaivaderkaiepexergasiaphysikēsglōssas