Academic Journal

A Hybrid Deep Learning Approach for Spam Detection in Twitter

Bibliographic Details
Title: A Hybrid Deep Learning Approach for Spam Detection in Twitter
Authors: Hemza Loucif
Source: Ingénierie des systèmes d information. 29:117-123
Publisher Information: International Information and Engineering Technology Association, 2024.
Publication Year: 2024
Subject Terms: FOS: Computer and information sciences, Review Spam, Artificial intelligence, Computer Networks and Communications, 7. Clean energy, Detection and Prevention of Phishing Attacks, Characterization and Detection of Android Malware, Deep Learning, Machine learning, Spamming, Deep learning, 16. Peace & justice, Computer science, 3. Good health, World Wide Web, Spam Detection, Spambot, Computer Science, Physical Sciences, Signal Processing, Bot Detection, 8. Economic growth, Network Intrusion Detection and Defense Mechanisms, Botnet Detection, The Internet, Information Systems
Description: La détection de comptes d'utilisateurs malveillants sur Twitter est devenue un domaine de recherche actif dans l'analyse des réseaux sociaux. Ce type d'utilisateurs mal intentionnés envoie des tweets indésirables à d'autres utilisateurs pour promouvoir des produits, des services, des rumeurs, des fausses nouvelles ou tout contenu abusif. Par conséquent, la détection de ces spammeurs et de leurs auteurs empêchera la détérioration de la qualité des services de communication et les utilisateurs légitimes d'être affectés. Des techniques d'apprentissage automatique traditionnelles ont été proposées pour s'attaquer au problème de la détection des spammeurs. Cependant, de nombreux chercheurs ont souligné que la majorité des modèles basés sur l'apprentissage automatique qui reposent sur une classification supervisée ne fonctionnaient pas bien dans les plates-formes de messages bruyants et courts comme Twitter. Récemment, les alternatives basées sur l'apprentissage profond ont montré des performances remarquables dans ce domaine en raison de leur vitesse de formation compétitive et de leur faible coût de mise en œuvre. Dans cet article, nous proposons une nouvelle architecture hybride qui combine l'analyse en composantes principales (ACP) avec le réseau neuronal convolutionnel (CNN) pour donner naissance à un modèle plus fiable et plus robuste pour la détection des spammeurs sur Twitter. Contrairement à d'autres hybridations, la couche convolutionnelle dans le module CNN n'est pas alimentée traditionnellement par des vecteurs de caractéristiques brutes, plutôt, nous utilisons des vecteurs de très faible dimension contenant des caractéristiques d'ordre élevé fournies par le module PCA. Une série d'expériences bien menées sur des ensembles de données de référence ont montré que l'hybridation s'est révélée efficace pour la détection des spammeurs. Les résultats montrent que le modèle PCA-CNN peut atteindre de meilleures performances de classification avec une précision de 94,91 %, un rappel de 96,76 % et un score F de 95,83 % par rapport aux repères de référence tels que CNN, ANN et SVM.
La detección de cuentas de usuarios maliciosos en Twitter se ha convertido en un área activa de investigación en el análisis de redes sociales. Este tipo de usuarios malintencionados envían tweets no deseados a otros usuarios para promocionar productos, servicios, rumores, noticias falsas o cualquier contenido abusivo. Por lo tanto, la detección de esos spammers y sus creadores evitará que se vea afectado el deterioro de la calidad de los servicios de comunicación y los usuarios legítimos. Se han propuesto técnicas tradicionales de aprendizaje automático para abordar el problema de la detección de spammers. Sin embargo, muchos investigadores han señalado que la mayoría de los modelos basados en aprendizaje automático que se basan en la clasificación supervisada no funcionaron bien en plataformas ruidosas y de mensajes cortos como Twitter. Recientemente, las alternativas basadas en aprendizaje profundo han mostrado un rendimiento notable en esta área debido a su velocidad de capacitación competitiva y bajo costo de implementación. En este documento, proponemos una nueva arquitectura híbrida que combina el Análisis de componentes principales (PCA) con la Red neuronal convolucional (CNN) para dar a luz a un modelo más confiable y robusto para la detección de spammers en Twitter. A diferencia de otras hibridaciones, la capa convolucional en el módulo CNN no se alimenta tradicionalmente mediante vectores de características sin procesar, más bien, utilizamos vectores de muy baja dimensión que contienen características de alto orden proporcionadas por el módulo PCA. Una serie de experimentos bien realizados sobre conjuntos de datos de referencia han demostrado que la hibridación demostró ser efectiva para la detección de spammers. Los resultados muestran que el modelo PCA-CNN puede lograr un mejor rendimiento de clasificación con un 94,91% de precisión, un 96,76% de recuperación y un 95,83% de puntuación F en comparación con los puntos de referencia de referencia como CNN, ANN y SVM.
Detecting malicious user accounts on Twitter has become an active area of research in social network analysis.This kind of ill-intentioned users send undesired tweets to other users to promote products, services, rumors, fake news, or any abusive content.Hence, the detection of those spammers and their originators will prevent deterioration in the quality of communication services and legitimate users from being affected.Traditional machine learning techniques have been proposed to tackle the problem of spammers detection.However, many researchers have pointed out that the majority of machine learning based models that rely on supervised classification didn't perform well in noisy and short message platforms like Twitter.Recently, deep learning-based alternatives have shown remarkable performance in this area because of their competitive training speed and low implementation cost.In this paper, we propose a new hybrid architecture that combines Principal Component Analysis (PCA) with Convolutional Neural Network (CNN) to give birth to a more reliable and robust model for spammers detection in Twitter.Unlike other hybridizations, the convolutional layer in the CNN module is not fed traditionally by raw feature vectors, rather, we use very low dimensional vectors containing high-order features provided by PCA module.A series of nicely conducted experiments over benchmark datasets have shown that the hybridization proved to be effective for the detection of spammers.The results show that PCA-CNN model can achieve better classification performance with 94.91% precision, 96.76% recall, and 95.83% F-score when compared to baseline benchmarks like CNN, ANN and SVM.
أصبح اكتشاف حسابات المستخدمين الخبيثة على تويتر مجالًا نشطًا للبحث في تحليل الشبكات الاجتماعية. يرسل هذا النوع من المستخدمين ذوي النوايا السيئة تغريدات غير مرغوب فيها إلى مستخدمين آخرين للترويج للمنتجات أو الخدمات أو الشائعات أو الأخبار المزيفة أو أي محتوى مسيء. ومع ذلك، فإن اكتشاف مرسلي الرسائل غير المرغوب فيها ومنشئيها سيمنع تدهور جودة خدمات الاتصال والمستخدمين الشرعيين من التأثر. تم اقتراح تقنيات التعلم الآلي التقليدية لمعالجة مشكلة اكتشاف مرسلي الرسائل غير المرغوب فيها. ومع ذلك، أشار العديد من الباحثين إلى أن غالبية النماذج القائمة على التعلم الآلي التي تعتمد على التصنيف الخاضع للإشراف لم تحقق أداءً جيدًا في منصات الرسائل الصاخبة والقصيرة مثل تويتر. في الآونة الأخيرة، أظهرت البدائل القائمة على التعلم العميق أداءً ملحوظًا في هذا المجال بسبب سرعة التدريب التنافسية وانخفاض تكلفة التنفيذ. في هذه الورقة، نقترح بنية هجينة جديدة تجمع بين تحليل المكونات الرئيسية (PCA) والشبكة العصبية الالتفافية (CNN) لتوليد نموذج أكثر موثوقية وقوة للكشف عن مرسلي البريد المزعج في تويتر. على عكس عمليات التهجين الأخرى، لا يتم تغذية الطبقة الالتفافية في وحدة CNN تقليديًا بدلاً من ذلك، نستخدم متجهات ذات أبعاد منخفضة جدًا تحتوي على ميزات عالية الترتيب توفرها وحدة PCA. أظهرت سلسلة من التجارب التي أجريت بشكل جيد على مجموعات البيانات المعيارية أن التهجين أثبت فعاليته في الكشف عن مرسلي الرسائل غير المرغوب فيها. تظهر النتائج أن نموذج PCA - CNN يمكن أن يحقق أداء تصنيف أفضل بدقة 94.91 ٪، و 96.76 ٪ استدعاء، و 95.83 ٪ درجة فهرنهايت عند مقارنته بالمعايير الأساسية مثل CNN و ANN و SVM.
Document Type: Article
Other literature type
ISSN: 2116-7125
1633-1311
DOI: 10.18280/isi.290113
DOI: 10.60692/t9vw7-r7n37
DOI: 10.60692/8myhq-chh42
Rights: URL: http://iieta.org/sites/default/files/TEXT%20AND%20DATA%20MINING%20SERVICE%20AGREEMENT.pdf
Accession Number: edsair.doi.dedup.....d9ff90b82fa1c645dc546723bef03f05
Database: OpenAIRE
Description
ISSN:21167125
16331311
DOI:10.18280/isi.290113