Academic Journal
URBAN SCENE SEGMENTATION USING HOMOGENEOUS U-NET ENSEMBLE: A STUDY ON THE CITYSCAPES DATASET
| Τίτλος: | URBAN SCENE SEGMENTATION USING HOMOGENEOUS U-NET ENSEMBLE: A STUDY ON THE CITYSCAPES DATASET |
|---|---|
| Πηγή: | Radio Electronics, Computer Science, Control; No. 3 (2025): Radio Electronics, Computer Science, Control; 64-76 Радиоэлектроника, информатика, управление; № 3 (2025): Радиоэлектроника, информатика, управление; 64-76 Радіоелектроніка, iнформатика, управління; № 3 (2025): Радіоелектроніка, інформатика, управління; 64-76 |
| Στοιχεία εκδότη: | National University "Zaporizhzhia Polytechnic", 2025. |
| Έτος έκδοσης: | 2025 |
| Θεματικοί όροι: | ініціалізація ваг, згорткова нейронна мережа, convolutional neural network, data augmentation techniques, урбаністичні сцени, U-Net, semantic segmentation, urban scenes, model initialization, ensemble learning, семантична сегментація, ансамблеве навчання, методи збільшення обсягу даних, Cityscapes |
| Περιγραφή: | Актуальність. Семантична сегментація є ключовим завданням комп’ютерного зору, зокрема в таких сферах, як автономне водіння та аналіз міських сцен. Створення нових архітектур є складним і трудомістким процесом, однак поліпшення точності за допомогою ансамблевих методів на основі вже існуючих моделей показує високий потенціал.У даній роботі досліджується застосування ансамблевого навчання як стратегії підвищення точності сегментації без модифікації архітектури U-Net.Мета роботи – розробка та оцінка однорідного ансамблю моделей U-Net, навчання яких здійснюється із використанням різних методів ініціалізації ваг та збільшення обсягу даних, а також вивчення ефективності різних стратегій агрегації ансамблю для підвищення якості сегментації на складних урбаністичних даних.Метод. Запропоновано ансамбль з п’яти моделей U-Net з однаковою архітектурою, але різною ініціалізацією ваг та підходами до збільшення обсягу даних, що забезпечує різноманітність прогнозів. Розглянуто кілька стратегій об'єднання вихідних даних: середнє по softmax, максимум, пропорційне зважування, експоненціальне зважування та оптимізоване вагове голосування. Оцінювання виконано на датасеті Cityscapes із використанням стандартних метрик сегментації.Результати. Результати експериментів показують, що ансамблеві моделі стабільно перевищують точність окремих моделей U-Net та базової моделі за такими показниками, як точність, середній IoU та специфічність.Ансамбль із оптимізованим зважуванням досяг найвищої точності (87,56%) та середнього IoU (0,6504), перевищивши найкращу окрему модель приблизно на 3%. Водночас покращення якості супроводжується збільшенням часу виведення результату, що вказує на необхідність компромісу між точністю та обчислювальною ефективністю.Висновки. Запропонований підхід на основі ансамблю ефективно покращує результати сегментації без зміни архітектури моделі. Незважаючи на збільшення обчислювальних витрат, метод є придатним для задач, де критично важлива точність сегментації. Подальші дослідження будуть зосереджені на зменшенні часу виведення результату та поширенні ансамблевого підходу на інші архітектури та датасети Актуальність. Семантична сегментація є ключовим завданням комп’ютерного зору, зокрема в таких сферах, як автономне водіння та аналіз міських сцен. Створення нових архітектур є складним і трудомістким процесом, однакполіпшення точності за допомогою ансамблевих методів на основі вже існуючих моделей показує високий потенціал.У даній роботі досліджується застосування ансамблевого навчання як стратегії підвищення точності сегментації безмодифікації архітектури U-Net.Мета роботи – розробка та оцінка однорідного ансамблю моделей U-Net, навчання яких здійснюється із використанням різних методів ініціалізації ваг та збільшення обсягу даних, а також вивчення ефективності різних стратегій агрегації ансамблю для підвищення якості сегментації на складних урбаністичних даних.Метод. Запропоновано ансамбль з п’яти моделей U-Net з однаковою архітектурою, але різною ініціалізацією ваг та підходами до збільшення обсягу даних, що забезпечує різноманітність прогнозів. Розглянуто кілька стратегій об'єднання вихідних даних: середнє по softmax, максимум, пропорційне зважування, експоненціальне зважування та оптимізоване вагове голосування. Оцінювання виконано на датасеті Cityscapes із використанням стандартних метрик сегментації.Результати. Результати експериментів показують, що ансамблеві моделі стабільно перевищують точність окремих моделей U-Net та базової моделі за такими показниками, як точність, середній IoU та специфічність.Ансамбль із оптимізованим зважуванням досяг найвищої точності (87,56%) та середнього IoU (0,6504), перевищившинайкращу окрему модель приблизно на 3%. Водночас покращення якості супроводжується збільшенням часу виведення результату, що вказує на необхідність компромісу між точністю та обчислювальною ефективністю.Висновки. Запропонований підхід на основі ансамблю ефективно покращує результати сегментації без зміни архітектури моделі. Незважаючи на збільшення обчислювальних витрат, метод є придатним для задач, де критично важлива точність сегментації. Подальші дослідження будуть зосереджені на зменшенні часу виведення результату та поширенні ансамблевого підходу на інші архітектури та датасети Context. Semantic segmentation plays a critical role in computer vision tasks such as autonomous driving and urban scene understanding. While designing new model architectures can be complex, improving performance through ensemble techniques applied to existing models has shown promising potential. This paper investigates ensemble learning as a strategy to enhance segmentation accuracy without modifying the underlying U-Net architecture.Objective. The aim of this work is to develop and evaluate a homogeneous ensemble of U-Net models trained with distinct initialization and data augmentation techniques, and to assess the effectiveness of various ensemble aggregation strategies inimproving segmentation performance on complex urban dataset.Method. The proposed approach constructs an ensemble of five structurally identical U-Net models, each trained with unique weight initialization and augmentation schemes to ensure prediction diversity. Several ensemble strategies are examined, including softmax averaging, max voting, proportional weighting, exponential weighting, and optimized weighted voting. Evaluation is conducted on the Cityscapes dataset using a range of segmentation metrics.Results. Experimental findings demonstrate that ensemble models outperform individual U-Net instances and the baseline in terms of accuracy, mean IoU, and specificity. The optimized weighted ensemble achieved the highest accuracy (87.56%) and mean IoU (0.6504), exceeding the best individual model by approximately 3%. However, these improvements come with a notable increase in inference time, highlighting a trade-off between accuracy and computational efficiency.Conclusions. The ensemble-based approach effectively enhances segmentation accuracy while leveraging existing model architectures. Although the increased computational cost presents a limitation for real-time applications, the method is well-suited for high-precision tasks. Future research will focus on reducing inference time and extending the ensemble methodology to other architectures and datasets. |
| Τύπος εγγράφου: | Article |
| Περιγραφή αρχείου: | application/pdf |
| Γλώσσα: | English |
| ISSN: | 1607-3274 2313-688X |
| Σύνδεσμος πρόσβασης: | https://ric.zp.edu.ua/article/view/339153 |
| Rights: | CC BY SA |
| Αριθμός Καταχώρησης: | edsair.scientific.p..4a0c0a4165941ceb8d4a4db6ac2b82ed |
| Βάση Δεδομένων: | OpenAIRE |
| ISSN: | 16073274 2313688X |
|---|