WeVoTe: A Weighted Voting Technique for Automatic Sentiment Annotation of Moroccan Dialect Comments

Λεπτομέρειες βιβλιογραφικής εγγραφής
Τίτλος: WeVoTe: A Weighted Voting Technique for Automatic Sentiment Annotation of Moroccan Dialect Comments
Συγγραφείς: Yassir Matrane, Faouzia Benabbou, Zouheir Banou
Πηγή: IEEE Access, Vol 12, Pp 16276-16298 (2024)
Στοιχεία εκδότη: Institute of Electrical and Electronics Engineers (IEEE), 2023.
Έτος έκδοσης: 2023
Θεματικοί όροι: Syntax-based Translation Models, Artificial intelligence, Annotation, FOS: Political science, FOS: Law, Sentiment analysis, Artificial Intelligence, Aspect-based Sentiment Analysis, Sentiment Analysis, labeling technique, Political science, Natural Language Processing, Arabic dialect, Topic Modeling, Natural language processing, Politics, Statistical Machine Translation and Natural Language Processing, Computer science, automatic annotation, TK1-9971, machine learning, Sentiment Analysis and Opinion Mining, Emotion Recognition, Computer Science, Physical Sciences, Electrical engineering. Electronics. Nuclear engineering, Voting, Law
Περιγραφή: El análisis de sentimientos representa el procedimiento sistemático de discernir independientemente la polaridad inherente a un documento textual. Una multitud de sectores pueden obtener ventajas sustanciales de este dominio especializado. La realización del análisis de sentimientos (AS) implica varias fases, siendo el paso inicial el proceso de anotación, que a menudo lleva mucho tiempo y es laborioso. En este marco, existe una notable escasez de trabajos de investigación existentes. La complejidad de esta tarea se hace más difícil cuando se analizan textos en 'Darija', una forma del dialecto marroquí (MD). En nuestros esfuerzos de investigación, introdujimos una novedosa metodología de anotación automática diseñada explícitamente para el análisis de sentimientos dentro del dialecto marroquí. Un aspecto fundamental de nuestra contribución es el refinamiento del enfoque de apilamiento, utilizando una técnica de votación ponderada para mejorar la precisión predictiva. Nuestro método avanzado comienza con el entrenamiento de varios modelos de redes neuronales en seis conjuntos de datos MD únicos. La selección de estas arquitecturas de redes neuronales se basó en un procedimiento integral de búsqueda en cuadrícula. En conclusión, se discernió que los modelos basados en Redes Neuronales Recurrentes (RNN) superaban a los demás. Posteriormente, implementamos un modelo de apilamiento aumentado, basado en la técnica de votación ponderada antes mencionada. Este modelo aprovecha las predicciones generadas por las redes neuronales como entradas. Luego emplea el modo de estas entradas como una salida, que alimenta directamente a un metaclasificador, que a su vez produce los coeficientes. Estos coeficientes se combinan multiplicativamente con las predicciones iniciales de la red neuronal para obtener los resultados finales. Para evaluar la eficiencia de nuestra metodología propuesta en la anotación de los seis conjuntos de datos, cada conjunto de datos se aisló como una prueba, mientras que los cinco restantes sirvieron como conjuntos de entrenamiento. En consecuencia, dentro del conjunto de seis conjuntos de datos, los resultados de anotación de tres conjuntos de datos han superado los estándares establecidos, alcanzando porcentajes de tasa de acuerdo de 87.54% para MSAC, 91.25% para FB, 85.10% para MSDA y 83.60% para MSTD, todos los cuales representan nuevos logros en la literatura.
L'analyse des sentiments représente la procédure systématique de discernement indépendant de la polarité inhérente à un document textuel. Une multitude de secteurs peuvent tirer des avantages substantiels de ce domaine spécialisé. La réalisation de l'analyse des sentiments (AS) implique différentes phases, la première étape étant le processus d'annotation, qui est souvent long et laborieux. Dans ce cadre, il existe une rareté notable des travaux de recherche existants. La complexité de cette tâche devient plus difficile lors de l'analyse de textes en « Darija », une forme du dialecte marocain (MD). Dans nos efforts de recherche, nous avons introduit une nouvelle méthodologie d'annotation automatique conçue explicitement pour l'analyse des sentiments dans le dialecte marocain. Un aspect essentiel de notre contribution est l'affinement de l'approche d'empilement, en utilisant une technique de vote pondéré pour une précision prédictive améliorée. Notre méthode avancée commence par la formation de divers modèles de réseaux neuronaux à travers six ensembles de données MD uniques. La sélection de ces architectures de réseaux neuronaux a été étayée par une procédure de recherche de grille complète. En conclusion, il a été discerné que les modèles basés sur les réseaux neuronaux récurrents (RNN) surpassaient les autres. Par la suite, nous avons déployé un modèle d'empilement augmenté, fondé sur la technique de vote pondéré susmentionnée. Ce modèle exploite les prédictions générées par les réseaux de neurones comme entrées. Il utilise ensuite le mode de ces entrées comme sortie, qui alimente directement un méta-classificateur, qui à son tour produit les coefficients. Ces coefficients sont ensuite combinés de manière multiplicative avec les prédictions initiales du réseau neuronal pour dériver les sorties finales. Pour évaluer l'efficacité de notre méthodologie proposée dans l'annotation des six ensembles de données, chaque ensemble de données a été isolé en tant que test tandis que les cinq autres ont servi d'ensembles de formation. Par conséquent, dans l'ensemble de six ensembles de données, les résultats d'annotation de trois ensembles de données ont surpassé les normes établies, atteignant des pourcentages de taux d'accord de 87,54 % pour MSAC, 91,25 % pour FB, 85,10 % pour MSDA et 83,60 % pour MSTD, qui représentent tous de nouvelles réalisations dans la littérature.
Sentiment analysis represents the systematic procedure of independently discerning polarity inherent in a textual document. A multitude of sectors can derive substantial advantages from this specialized domain. Conducting sentiment analysis (SA) involves various phases, with the initial step being the annotation process, which is often time-consuming and laborious. Within this framework, there exists a notable scarcity of existing research works. The complexity of this task becomes more difficult when analyzing texts in 'Darija', a form of the Moroccan dialect (MD). In our research endeavors, we introduced a novel automatic annotation methodology designed explicitly for sentiment analysis within the Moroccan dialect. A pivotal aspect of our contribution is the refinement of the stacking approach, utilizing a weighted voting technique for enhanced predictive accuracy. Our advanced method starts with the training of various neural network models across six unique MD datasets. The selection of these neural network architectures was underpinned by a comprehensive grid search procedure. Conclusively, it was discerned that models predicated on Recurrent Neural Networks (RNNs) outperformed others. Subsequent to this, we deployed an augmented stacking model, grounded in the aforementioned weighted voting technique. This model leverages the predictions generated by the neural networks as inputs. It then employs the mode of these inputs as an output, which feeds directly into a meta-classifier, which in turn produces the coefficients. These coefficients are then multiplicatively combined with the initial neural network predictions to derive the finale outputs. To evaluate the efficiency of our proposed methodology in annotating the six datasets, each dataset was isolated as a test while the remaining five served as training sets. Consequently, within the set of six datasets, the annotation results of three datasets have outperformed the established standards, attaining agreement rate percentages of 87.54% for MSAC, 91.25% for FB, 85.10% for MSDA, and 83.60% for MSTD, all of which represent new achievements in the literature.
يمثل تحليل المشاعر الإجراء المنهجي للتمييز المستقل للقطبية المتأصلة في وثيقة نصية. يمكن للعديد من القطاعات أن تستمد مزايا كبيرة من هذا المجال المتخصص. يتضمن إجراء تحليل المشاعر (SA) مراحل مختلفة، حيث تكون الخطوة الأولى هي عملية التعليق التوضيحي، والتي غالبًا ما تستغرق وقتًا طويلاً وشاقة. في هذا الإطار، هناك ندرة ملحوظة في الأعمال البحثية الحالية. يصبح تعقيد هذه المهمة أكثر صعوبة عند تحليل النصوص في "داريجا"، وهو شكل من أشكال اللهجة المغربية (MD). في مساعينا البحثية، قدمنا منهجية توضيحية تلقائية جديدة مصممة خصيصًا لتحليل المشاعر داخل اللهجة المغربية. يتمثل أحد الجوانب المحورية لمساهمتنا في تحسين نهج التكديس، باستخدام تقنية تصويت مرجحة لتعزيز الدقة التنبؤية. تبدأ طريقتنا المتقدمة بتدريب نماذج الشبكات العصبية المختلفة عبر ست مجموعات بيانات MD فريدة. تم دعم اختيار هياكل الشبكة العصبية هذه من خلال إجراء بحث شامل في الشبكة. بشكل قاطع، تم تمييز أن النماذج التي تعتمد على الشبكات العصبية المتكررة (RNNs) تفوقت على النماذج الأخرى. بعد ذلك، قمنا بنشر نموذج تكديس معزز، يرتكز على تقنية التصويت المرجحة المذكورة أعلاه. يستفيد هذا النموذج من التنبؤات التي تولدها الشبكات العصبية كمدخلات. ثم توظف طريقة هذه المدخلات كمخرج، والذي يغذي مباشرة في مصنف ميتا، والذي بدوره ينتج المعاملات. ثم يتم دمج هذه المعاملات بشكل مضاعف مع تنبؤات الشبكة العصبية الأولية لاشتقاق المخرجات النهائية. لتقييم كفاءة منهجيتنا المقترحة في شرح مجموعات البيانات الست، تم عزل كل مجموعة بيانات كاختبار بينما عملت المجموعات الخمس المتبقية كمجموعات تدريب. وبالتالي، ضمن مجموعة ست مجموعات بيانات، تفوقت نتائج التعليقات التوضيحية لثلاث مجموعات بيانات على المعايير المعمول بها، وحققت نسبًا مئوية لمعدل الاتفاق تبلغ 87.54 ٪ لـ MSAC، و 91.25 ٪ لـ FB، و 85.10 ٪ لـ MSDA، و 83.60 ٪ لـ MSTD، وكلها تمثل إنجازات جديدة في الأدبيات.
Τύπος εγγράφου: Article
Other literature type
ISSN: 2169-3536
DOI: 10.1109/access.2024.3359430
DOI: 10.2139/ssrn.4565571
DOI: 10.60692/w0eda-67k02
DOI: 10.60692/qc61s-d0x08
Σύνδεσμος πρόσβασης: https://doaj.org/article/0a3564d870a841c499dac819f440c993
Rights: CC BY
Αριθμός Καταχώρησης: edsair.doi.dedup.....a1b10fdb23706886e32b9e7522e4c0bd
Βάση Δεδομένων: OpenAIRE
Περιγραφή
ISSN:21693536
DOI:10.1109/access.2024.3359430