The increasing adoption of Machine Learning (ML) methods in healthcare is paving the way to advances in Preventive, Predictive, Personalized, and Participatory medicine. These techniques leverage heterogeneous data sources such as Electronic Health Records, Patient Reported Outcomes, and wearable device data. However, the success of these data-driven solutions in high-stakes domains is put at risk by persistent challenges. Experiences during research on chronic disease management in the aging population, major public health crises, and post-pandemic management of cases under recovery partitioned these obstacles into two main categories: Intrinsic data quality issues, including data scarcity, sparsity, imbalance, and instability, which often arise from evolving data collection protocols and irregular longitudinal observation patterns. Translational challenges relate instead to trust and safety assurance at the interface between ML and clinical practice. For example, demanding loss function customization to conservatively penalize false negatives or adopting human-in-the-loop approaches to iteratively incorporate feedback from domain experts until the model behavior is fully interpretable. The interplay of these data quality issues often causes fragilities in data preparation pipelines, undermining the stability and long-term reliability of ML systems. While existing literature mostly focuses on downstream model recalibration and fine-tuning to tackle challenges like data and model drifts, the upstream origins of these data-centric issues are often overlooked. A research gap exists because of the lack of systematic tools to track and early detect issues as data points propagate through complex preprocessing pipelines. This dissertation introduces an end-to-end framework, centered on Incremental Data Preparation. This framework is designed to proactively inspect and debug data engineering pipelines, shifting the focus from repairing degraded models to upstream pipeline reparation, aiming for model fairness and reliability preservation by design. The framework is built around three main pillars: 1. Data Provenance, leveraging the W3C PROV-DM standard to record the lineage of each data point throughout the pipeline, enabling precise identification of the origin of anomalies. 2. Data Profiling, at each pipeline stage, statistical summaries are generated to capture key data characteristics, such as data distributions, missingness, and correlation patterns, providing a quantitative data quality assessment. 3. Delta Comparisons, harmful data drifts are detected by comparing temporal and stage-wise differences in these data profiles using measures of statistical divergence, thereby prompting human intervention when needed. To minimize false positives and computational overhead, the framework is only invoked upon detection of downstream model performance or fairness degradation. This targeted approach efficiently traces issues back to their origin, pinpointing problematic operators responsible for introducing or amplifying bias. Data Scientists can then isolate and correct the affected subset of data points, restore data integrity, and maintain model reliability. This research advances state-of-the-art by providing a proactive, practical, and scalable solution for data pipeline debugging. It enables the development, deployment, and maintenance of reliable, accountable, and transparent ML systems, ultimately accelerating the transition towards robust precision medicine. Nevertheless, the potential of this data-centric approach extends beyond healthcare, offering a broadly applicable framework to ensure data quality and model robustness across diverse, data-intensive applications.

L’adozione crescente dell’apprendimento automatico (AA) in sanità promuove sempre più approcci di medicina preventiva, predittiva, personalizzata e partecipativa. Queste tecniche sfruttano più sorgenti di dati, come cartelle cliniche elettroniche, informazioni riportate dai pazienti e dispositivi indossabili. Tuttavia, nei settori ad alto rischio, il successo di queste soluzioni fortemente basate sui dati è minato da diverse problematiche. Le esperienze maturate durante la ricerca sulla gestione di malattie croniche nella popolazione geriatrica, le crisi di sanità pubblica e la gestione post-pandemia dei casi in via di guarigione hanno permesso di suddividere questi ostacoli in due categorie principali: problemi legati alla qualità dei dati (scarsità, sparsità, disequilibrio ed instabilità), spesso dovuti all’irregolarità del campionamento e all'evoluzione dei protocolli di raccolta; e problemi traslazionali, ovvero riguardanti la fiducia tra chi sviluppa sistemi d’AA e l’utilizzatore finale. Questi ultimi vengono spesso superati personalizzando l’AA in modo da penalizzare in maniera conservativa i falsi negativi, piuttosto che coinvolgendo gli esperti di dominio nel ciclo di sviluppo, applicando iterativamente pareri volti a migliorare l’interpretabilità del modello. L'interazione di questi problemi spesso causa fragilità nel processo di preparazione dei dati, minando la stabilità e l'affidabilità a lungo termine dei sistemi di AA. La letteratura si concentra principalmente sulla ricalibrazione a valle dei modelli, trascurando le reali sorgenti di questi problemi. Questa lacuna deriva dalla mancanza di strumenti sistematici per il tracciamento e la rilevazione di queste anomalie, che, passando inosservate, si propagano fino in produzione. Questa tesi presenta un quadro di lavoro per la preparazione incrementale dei dati, rendendo ispezionabile e proattivamente riparabile l’intero processo di cura dei dati. L’obiettivo è migliorare la qualità dei dati a monte, per garantire decisioni eque da parte del modello, ovvero ripristinare l’affidabilità del sistema riconducendolo alle condizioni originarie, come da specifiche progettuali. L’architettura si basa su tre pilastri: 1. Provenienza dei dati: le trasformazioni dei dati vengono tracciate, attraverso lo standard W3C PROV-DM, permettendo di individuare l'origine delle anomalie. 2. Profilazione dei dati: ad ogni stadio di pretrattamento, la qualità dei dati viene quantificata in termini statistici attraverso riassunti delle loro distribuzioni, assenze e correlazioni. 3. Confronto dei profili: misurando la significatività statistica delle differenze tra diversi stadi ed istanti temporali, è possibile stabilire quando questa divergenza può compromettere il modello. Ove necessario, si segnala quindi la necessità di un intervento umano correttivo. Per minimizzare falsi positivi e sovraccarico computazionale, il sistema si attiva solo quando il modello presenta cali di prestazioni o di imparzialità. Identificando gli operatori responsabili dell’introduzione di comportamenti inattesi, gli scienziati possono isolare rapidamente la parte di sistema da correggere e individuare il sottoinsieme di dati interessati, ripristinando così l'integrità e l'affidabilità del modello. Questa ricerca offre una soluzione proattiva, concreta e scalabile per correggere in modo adattivo i processi di pretrattamento dei dati, affrontando problemi raramente trattati. Supporta lo sviluppo, l'implementazione e la manutenzione di sistemi d’AA affidabili e trasparenti, accelerando la transizione verso la medicina di precisione. Questo approccio incentrato sui dati è applicabile a qualsiasi settore che richieda garanzie sulla qualità dei dati e la robustezza dei modelli in produzione, non solo all’assistenza sanitaria.

Ispezione e risanamento dei processi di preparazione dei dati in domini ad alto rischio / Federico Motta , 2026 Mar 31. 38. ciclo, Anno Accademico 2024/2025.

Ispezione e risanamento dei processi di preparazione dei dati in domini ad alto rischio

MOTTA, FEDERICO
2026

Abstract

The increasing adoption of Machine Learning (ML) methods in healthcare is paving the way to advances in Preventive, Predictive, Personalized, and Participatory medicine. These techniques leverage heterogeneous data sources such as Electronic Health Records, Patient Reported Outcomes, and wearable device data. However, the success of these data-driven solutions in high-stakes domains is put at risk by persistent challenges. Experiences during research on chronic disease management in the aging population, major public health crises, and post-pandemic management of cases under recovery partitioned these obstacles into two main categories: Intrinsic data quality issues, including data scarcity, sparsity, imbalance, and instability, which often arise from evolving data collection protocols and irregular longitudinal observation patterns. Translational challenges relate instead to trust and safety assurance at the interface between ML and clinical practice. For example, demanding loss function customization to conservatively penalize false negatives or adopting human-in-the-loop approaches to iteratively incorporate feedback from domain experts until the model behavior is fully interpretable. The interplay of these data quality issues often causes fragilities in data preparation pipelines, undermining the stability and long-term reliability of ML systems. While existing literature mostly focuses on downstream model recalibration and fine-tuning to tackle challenges like data and model drifts, the upstream origins of these data-centric issues are often overlooked. A research gap exists because of the lack of systematic tools to track and early detect issues as data points propagate through complex preprocessing pipelines. This dissertation introduces an end-to-end framework, centered on Incremental Data Preparation. This framework is designed to proactively inspect and debug data engineering pipelines, shifting the focus from repairing degraded models to upstream pipeline reparation, aiming for model fairness and reliability preservation by design. The framework is built around three main pillars: 1. Data Provenance, leveraging the W3C PROV-DM standard to record the lineage of each data point throughout the pipeline, enabling precise identification of the origin of anomalies. 2. Data Profiling, at each pipeline stage, statistical summaries are generated to capture key data characteristics, such as data distributions, missingness, and correlation patterns, providing a quantitative data quality assessment. 3. Delta Comparisons, harmful data drifts are detected by comparing temporal and stage-wise differences in these data profiles using measures of statistical divergence, thereby prompting human intervention when needed. To minimize false positives and computational overhead, the framework is only invoked upon detection of downstream model performance or fairness degradation. This targeted approach efficiently traces issues back to their origin, pinpointing problematic operators responsible for introducing or amplifying bias. Data Scientists can then isolate and correct the affected subset of data points, restore data integrity, and maintain model reliability. This research advances state-of-the-art by providing a proactive, practical, and scalable solution for data pipeline debugging. It enables the development, deployment, and maintenance of reliable, accountable, and transparent ML systems, ultimately accelerating the transition towards robust precision medicine. Nevertheless, the potential of this data-centric approach extends beyond healthcare, offering a broadly applicable framework to ensure data quality and model robustness across diverse, data-intensive applications.
A Data-centric Approach to Inspect and Debug Data Preparation Pipelines in High-stake Domains
31-mar-2026
MANDREOLI, Federica
File in questo prodotto:
File Dimensione Formato  
2026_03_24__unimore__cds_tsi__phd_thesis__federico_motta__esse3_version.pdf

embargo fino al 30/03/2029

Descrizione: Motta.Federico.pdf
Tipologia: Tesi di dottorato
Dimensione 4.8 MB
Formato Adobe PDF
4.8 MB Adobe PDF   Visualizza/Apri   Richiedi una copia
Pubblicazioni consigliate

Licenza Creative Commons
I metadati presenti in IRIS UNIMORE sono rilasciati con licenza Creative Commons CC0 1.0 Universal, mentre i file delle pubblicazioni sono rilasciati con licenza Attribuzione 4.0 Internazionale (CC BY 4.0), salvo diversa indicazione.
In caso di violazione di copyright, contattare Supporto Iris

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11380/1403090
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact