Loghi REACT-EU, MUR, PON

Benchmark & baseline v0.1

Scopo

Questa pagina definisce il benchmark pack minimo per valutare la pipeline (immagine → HTR/OCR → correzione → TEI). In un progetto Horizon (Innovation Action) servono: baseline, KPI e un campione gold riproducibile.

1) Gold set (template)

Il gold set è un campione di righe/entry trascritte e verificate manualmente (calendari + martirologi). Si usa per calcolare errori e tempi di correzione.

2) KPI (metriche)

AreaKPICosa misuraUnità
Layout Accuratezza segmentazione Qualità segmentazione (righe/colonne/aree: mese, giorni, marginalia) %
HTR CER / WER Errori carattere/parola rispetto al gold set %
Operatività Tempo per pagina Tempo complessivo: ingest → output revisionato min/pagina
Usabilità Azioni di correzione Numero medio di interventi e curva di apprendimento (correzione OCR-like) #azioni / min
Output Export TEI valido Validità e completezza dell'export (TEI + JSON/CSV) sì/no + %

3) Baseline

4) Uso pratico (release rapide)

  1. Seleziona 2–3 pagine calendario + 2–3 pagine martirologio (link alle fonti).
  2. Compila il gold set su 20–40 righe totali (prima release).
  3. Registra tempi di correzione (min/pagina) e principali errori ricorrenti.
  4. Pubblica una nuova release aggiornando i file in /data e la versione (v0.2, v0.3...).

Nota su diritti

Le immagini dei manoscritti restano soggette ai diritti degli istituti detentori. Il benchmark usa metadati, link e trascrizioni/annotazioni prodotte dal progetto. Vedi license.txt.