Segmentacja obrazów ran oraz znaczników referencyjnych za pomocą metod głębokiego uczenia
Segmentation of Wound Images and Reference Markers Using Deep Learning Methods
Streszczenie
Praca dotyczy zastosowania metod głębokiego uczenia do segmentacji obrazów ran skórnych z jednoczesnym wykrywaniem znaczników referencyjnych. Celem badań było opracowanie oraz porównanie wybranych architektur sieci neuronowych pod kątem skuteczności segmentacji trójklasowej obejmującej tło, obszar rany oraz znacznik skali. W pracy przeanalizowano cztery modele reprezentujące różne podejścia do segmentacji: klasyczną architekturę U-Net, model Swin U-Net wykorzystujący mechanizmy transformerowe, sieć HrNet utrzymującą wysoką rozdzielczość reprezentacji cech oraz architekturę DeepLabv3 opartą na analizie wieloskalowej z użyciem splotów dylatacyjnych.
Badania przeprowadzono z wykorzystaniem publicznie dostępnego zbioru obrazów ran, który został odpowiednio przygotowany i rozszerzony o syntetycznie generowane znaczniki referencyjne. W celu poprawy zdolności generalizacji modeli zastosowano prostą augmentację danych. Każdą architekturę trenowano wielokrotnie przy zachowaniu stałego podziału danych, a wyniki oceniano z użyciem standardowych metryk segmentacji, takich jak współczynniki Dice-Sorensena i Jaccarda, czułość, swoistość, dokładność pikselowa oraz odległość Hausdorffa. Dodatkowo przeanalizowano stabilność predykcji na podstawie odchyleń standardowych metryk oraz macierzy pomyłek.
Z przeprowadzonych badań wynika że architektura DeepLabv3 osiągnęła najlepsze rezultaty zarówno pod względem jakości segmentacji, jak i powtarzalności wyników, wykazując największy potencjał do zastosowań w praktyce klinicznej.
Abstract
This thesis addresses the application of deep learning methods for the segmentation of skin wound images with simultaneous detection of reference markers. The aim of the study was to develop and compare selected neural network architectures in terms of their effectiveness in three-class segmentation, including background, wound area, and scale marker. Four models representing different segmentation approaches were analyzed: the classical U-Net architecture, the Swin U-Net model utilizing transformer-based mechanisms, the HrNet network maintaining high-resolution feature representations, and the DeepLabv3 architecture based on multi-scale analysis using dilated convolutions.
The experiments were conducted using a publicly available wound image dataset, which was appropriately prepared and extended with synthetically generated reference markers. To improve model generalization, simple data augmentation techniques were applied. Each architecture was trained multiple times using a fixed data split, and the results were evaluated using standard segmentation metrics such as the Dice–Sorensen and Jaccard coefficients, sensitivity, specificity, pixel-wise accuracy, and the Hausdorff distance. Additionally, prediction stability was analyzed based on the standard deviations of the metrics and confusion matrices.
The results indicate that the DeepLabv3 architecture achieved the best performance in terms of both segmentation quality and result consistency, demonstrating the greatest potential for application in clinical practice.