Report
МЕТОД ОЧИСТКИ ОБУЧАЮЩЕЙ ВЫБОРКИ ДЛЯ ЗАДАЧ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ ЧЕРЕЗ ОБНАРУЖЕНИЕ АНОМАЛИЙ
| Title: | МЕТОД ОЧИСТКИ ОБУЧАЮЩЕЙ ВЫБОРКИ ДЛЯ ЗАДАЧ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ ЧЕРЕЗ ОБНАРУЖЕНИЕ АНОМАЛИЙ |
|---|---|
| Publisher Information: | Правовая информатика, 2025. |
| Publication Year: | 2025 |
| Subject Terms: | обработка данных, model stability, устойчивость моделей, датасет обработки, experimental evaluation, медицинская аналитика, processing dataset, предсказательные системы, экспериментальная оценка, анализ выбросов, classification algorithms, оптимизация моделей, алгоритмы классификации, model optimisation, medical analytics, predictive systems, data processing, emissions analysis |
| Description: | Purpose of the work: analysing and developing a method for clearing the training dataset for machine learning model tasks by detecting anomalies using the Isolation Forest (IsFo) algorithm. Methods used in the study: using the IsFo algorithm for detecting and filtering anomalous data in the COVID-19 medical dataset. Data preprocessing including category feature coding and standardisation was carried out, as well as a simulation of anomalies by distorting labels and adding noise. Algorithm hyperparameters are tuned for optimising the F1 measure, then anomalies filtering is performed and classification quality is evaluated using a multi-layer perceptron. Study findings: the IsFo algorithm efficiently detects anomalies: 324 out of 342 distorted points were found, with a minimum number of false positives (19). The classification accuracy for the original data was 85%, for the distorted data it decreased to 78% and, after filtering, recovered to 83%. Testing using real data confirmed the preservation of the quality of the model (82%). The method improves the models reliability, but it requires hyperparameter tuning and may be less efficient for targeted attacks or high-dimensional data. Practical value: the viability of the IsFo algorithm for medical analytics is shown, however, for complex cases it is recommended to use the algorithm in combination with other methods. Цель работы: анализ и разработка метода очистки обучающей выборки для моделей машинного обучения посредством обнаружения аномалий с использованием алгоритма Isolation Forest (IsFo). Метод исследования: применение алгоритма IsFo для выявления и фильтрации аномальных данных в медицинском датасете КОВИД-19. Проведена предобработка данных, включая кодирование категориальных признаков и стандартизацию, а также симуляция аномалий путем искажения меток и добавления шума. Настроены гиперпараметры алгоритма для оптимизации F1-меры, после чего выполнена фильтрация аномалий и оценка качества классификации с использованием многослойного перцептрона. Результаты исследования: алгоритм IsFo эффективно выявляет аномалии, обнаружив 324 из 342 искаженных точек с минимальными ложными срабатываниями (19). Точность классификации на исходных данных составила 85%, на искаженных — снизилась до 78%, а после фильтрации восстановилась до 83%. Тестирование на реальных данных подтвердило сохранение качества модели (82%). Метод повышает надежность моделей, но требует настройки гиперпараметров и может быть менее эффективен при целенаправленных атаках или высокоразмерных данных. Практическая ценность: показана перспективность алгоритма IsFo для медицинской аналитики, однако для сложных случаев рекомендуется комбинирование с другими методами. |
| Document Type: | Research |
| DOI: | 10.24412/1994-1404-2025-2-95-102 |
| Rights: | CC BY |
| Accession Number: | edsair.doi...........afd964ae1542f07b7e7c8a65debb6a5e |
| Database: | OpenAIRE |
| DOI: | 10.24412/1994-1404-2025-2-95-102 |
|---|