Academic Journal

EVALUATION OF QUANTIZED LARGE LANGUAGE MODELS IN THE TEXT SUMMARIZATION PROBLEM

Bibliographic Details
Title: EVALUATION OF QUANTIZED LARGE LANGUAGE MODELS IN THE TEXT SUMMARIZATION PROBLEM
Source: Radio Electronics, Computer Science, Control; No. 2 (2025): Radio Electronics, Computer Science, Control; 133-147
Радиоэлектроника, информатика, управление; № 2 (2025): Радиоэлектроника, информатика, управление; 133-147
Радіоелектроніка, iнформатика, управління; № 2 (2025): Радіоелектроніка, інформатика, управління; 133-147
Publisher Information: National University "Zaporizhzhia Polytechnic", 2025.
Publication Year: 2025
Subject Terms: limited resources, обробка природної мови, multicriteria analysis, квантизація, багатокритеріальний аналіз, великі мовні моделі, сумаризація або узагальнення тексту, text summarization, large language models, quantization, natural language processing, обмеженість ресурсів
Description: Актуальність. Розглянуто задачу підвищення ефективності глибоких штучних нейронних мереж щодо обсягу пам'яті та енергоспоживання, та багатокритеріальне оцінювання якості результатів великих мовних моделей (LLM) з урахуванням суджень користувачів в задачі сумаризації текстів. Об’єктом дослідження є процес автоматизації сумаризації текстів на основі LLM.Мета роботи – знайти компроміс між складністю моделі LLM, її точністю та ефективністю в задачі сумаризації або узагальнення текстів.Метод. Запропоновано алгоритм оцінювання моделей LLM за багатьма критеріями (метриками), який дозволяє обрати найбільш підходящу модель LLM для сумаризації тексту, знайти прийнятний компроміс між складністю моделі LLM, її продуктивністю та якістю узагальнення тексту. Значне підвищення точності результатів на основі нейронних мереж у задачах обробки природної мови часто досягається використанням занадто глибоких і надмірно параметризованих моделей, що суттєво обмежує здатність моделей використовуватися у задачах виводу в реальному часі, за потреби високої точності в умовах обмежених ресурсів. Пропонований алгоритм обирає прийнятну модель LLM за багатьма критеріями, такими як показники точності BLEU, Rouge-1, 2, Rouge-L, BERT-оцінки, швидкість сумаризації або іншими критеріями, які визначаються користувачем в конкретній практичній задачі інтелектуального аналізу тексту. Алгоритм включає аналіз і підвищення узгодженості суджень користувачів, оцінювання моделей LLM за кожним критерієм, агрегування локальних ваг моделей, аналіз чутливості отриманих глобальних ваг моделей.Результати. Розроблено програмне забезпечення для автоматичного отримання текстів з онлайн-статей і сумаризації цих текстів, та для оцінювання якості моделей LLM. Отримано оцінки якості дев’ятнадцяти квантованих і неквантованих моделей LLM різних розмірів, серед яких LLaMa-3-8B-4bit, Gemma-2B-4bit, Gemma-1.1-7B-4bit, Qwen-1.5-4B-4bit, Stable LM-2-1.6B-4bit, Phi-2-4bit, Mistal-7B-4bit, GPT-3.5 Turbo за показниками BLEU, Rouge-1, Rouge-2, Rouge-L і BERT-оцінок на двох різних наборах текстів XSum та CNN/Daily Mail 3.0.0.Висновки. Проведені експерименти підтвердили працездатність пропонованого математичного забезпечення, дозволяють рекомендувати його для використання при вирішенні задач сумаризації текстів на практиці. Перспективи подальших досліджень можуть полягати у більш глибокому аналізі метрик та критеріїв оцінювання якості сгенерованих текстів, а також експериментальному дослідженні пропонованого алгоритму на більшій кількості практичних задач обробки природної мови
Context. The problem of increasing the efficiency of deep artificial neural networks in terms of memory and energy consumption, and the multi-criteria evaluation of the quality of the results of large language models (LLM) taking into account the judgments of users in the task of summarizing texts, are considered. The object of the study is the process of automated text summarization based on LLMs.Objective. The goal of the work is to find a compromise between the complexity of the LLM, its performance and operational efficiency in text summarization problem.Method. An LLM evaluation algorithm based on multiple criteria is proposed, which allows choosing the most appropriate LLM model for text summarization, finding an acceptable compromise between the complexity of the LLM model, its performance and the quality of text summarization. A significant improvement in the accuracy of results based on neural networks in natural language processing tasks is often achieved by using models that are too deep and over-parameterized, which significantly limits the ability of the models to be used in real-time inference tasks, where high accuracy is required under conditions of limited resources. The proposed algorithm selects an acceptable LLM model based on multiple criteria, such as accuracy metrics BLEU, Rouge-1, 2, Rouge-L, BERT-scores, speed of text generalization, or other criteria defined by the user in a specific practical task of intellectual analysis. The algorithm includes analysis and improvement of consistency of user judgments, evaluation of LLM models in terms of each criterion.Results. Software is developed for automatically extracting texts from online articles and summarizing these texts. Nineteen quantized and non-quantized LLM models of various sizes were evaluated, including LLaMa-3-8B-4bit, Gemma-2B-4bit, Gemma- 1.1-7B-4bit, Qwen-1.5-4B-4bit, Stable LM-2-1.6B-4bit, Phi-2-4bit, Mistal-7B-4bit, GPT-3.5 Turbo and other LLMs in terms of BLEU, Rouge-1, Rouge-2, Rouge-L and BERT-scores on two different datasets: XSum and CNN/ Daily Mail 3.0.0.Conclusions. The conducted experiments have confirmed the functionality of the proposed software, and allow to recommend it for practical use for solving the problems of text summarizing. Prospects for further research may include deeper analysis of metrics and criteria for evaluating quality of generated texts, experimental research of the proposed algorithm on a larger number of practical tasks of natural language processing
Document Type: Article
File Description: application/pdf
Language: English
ISSN: 1607-3274
2313-688X
Access URL: https://ric.zp.edu.ua/article/view/332997
Rights: CC BY SA
Accession Number: edsair.scientific.p..57e2d3d9269ce6db6d40a5ec2ef39dd3
Database: OpenAIRE
Description
ISSN:16073274
2313688X