Report
МЕТОДЫ И ПОДХОДЫ К ПРЕДОБРАБОТКИ ДАННЫХ ПЛАТЕЖЕЙ ПРИ УСЛОВИИ СИЛЬНОЙ НЕСБАЛАНСИРОВАННОСТИ КЛАССОВ
| Τίτλος: | МЕТОДЫ И ПОДХОДЫ К ПРЕДОБРАБОТКИ ДАННЫХ ПЛАТЕЖЕЙ ПРИ УСЛОВИИ СИЛЬНОЙ НЕСБАЛАНСИРОВАННОСТИ КЛАССОВ |
|---|---|
| Στοιχεία εκδότη: | StudNet, 2021. |
| Έτος έκδοσης: | 2021 |
| Θεματικοί όροι: | бинарная классификация, антифрод, binary classification, несбалансированность классов, ASMO algorithm, anti-fraud, undersampling, SMOTE algorithm, financial fraud, финансовое мошенничество, машинное обучение, транзакции, парадокс точности, machine learning, transactions, oversampling, 115-ФЗ, class imbalance, 115-FZ, accuracy paradox, fraud monitoring, алгоритм ASMO, алгоритм SMOTE, фрод-мониторинг |
| Περιγραφή: | Machine learning algorithms are widely used in many fields of activity. The classification task is usually aimed at minimizing the number of false positives. For example, in the banking sector, the classification task can be applied to the processing of transactions to identify fraudulent activities or fraudulent schemes. However, when developing a self-learning model, the problem of data imbalance arises, since the ratio of fraudulent transactions to the total number of transactions is too small. When using standard classification methods in such a situation, the problem often arises that when the total error is reduced, the classifier completely attributes the class of interest to noise. In this case, the accuracy paradox arises, when the accuracy indicators reflect only the distribution of the base class, while ignoring the class of illegitimate transactions of interest. Thus, there is a need to solve the problem of imbalance. The main purpose of the work is to review and analyze existing methods of dealing with a strong imbalance of classes. The paper considers the main methods of processing and analyzing large unbalanced sets of payment data for the purpose of their further application in the training of bank anti-fraud systems. The review of the main directions for dealing with a strong imbalance of classes, among which the over-sampling and under-sampling technologies are mentioned, is carried out. The author's comparative characteristics of technologies are given, where their main advantages and disadvantages of practical application are displayed. The principle of operation of the SMOTE algorithm , the possibility of its application to payment data in conjunction with the machine learning algorithms used are analyzed. It was revealed that when implementing a system for recognizing illegitimate transactions in the banking sector, the main problem is a strong imbalance of classes in the data array. It is required that a real-time machine learning model with unsupervised learning in conditions of severe class imbalance should be able to accurately recognize illegitimate transactions. Алгоритмы машинного обучения широко применяются во многих сферах деятельности. Задача классификации обычно направлена на минимизацию количества ложных срабатываний. Например, в банковской сфере задача классификации может быть применена к обработке транзакций для выявления мошеннических действий или мошеннических схем. Однако, при разработке самообучающейся модели возникает проблема несбалансированности данных, так как соотношение мошеннических транзакций к общему количеству транзакций слишком мало. При использовании стандартных методов классификации в такой ситуации часто возникает проблема, что при уменьшении общей ошибки классификатор полностью относит интересуемый класс к шуму. В таком случае возникает парадокс точности, когда показатели точности отражают только распределение базового класса, игнорируя при этом интересуемый класс нелегитимных транзакций. Таким образом, появляется потребность в решении проблемы несбалансированности. Основной целью работы является обзор и анализ существующих методов борьбы с сильной несбалансированностью классов. В работе рассматриваются основные методы обработки и анализа больших несбалансированных наборов данных платежей с целью их дальнейшего применения при обучении банковских антифрод систем. Проведен обзор основных направлений для борьбы с сильной несбалансированностью классов, среди которых упомянуты технологии over-sampling и under-sampling. Приведена авторская сравнительная характеристика технологий, где отображены их основные достоинства и недостатки практического применения. Разобран принцип работы алгоритма SMOTE, возможность его применения к данным платежей в совокупности с используемыми алгоритмами машинного обучения. Было выявлено, что при реализации системы распознавания нелегитимных транзакций в банковской сфере главной проблемой является сильная несбалансированность классов в массиве данных. Требуется, чтобы модель машинного обучения в режиме реального времени с обучением без учителя в условиях сильной несбалансированности классов умела точно распознавать нелегитимные транзакции. |
| Τύπος εγγράφου: | Research |
| DOI: | 10.24412/2658-4964-2021-103682 |
| Rights: | CC BY |
| Αριθμός Καταχώρησης: | edsair.doi...........15fcf3380c942e1fe842d3e2d5d30507 |
| Βάση Δεδομένων: | OpenAIRE |
| DOI: | 10.24412/2658-4964-2021-103682 |
|---|