master-degree-notes/Biometric Systems/notes/9. Ear recognition.md

Tratto biometrico composto da una struttura ben definita:
- **Helix:** bordo esterno
- **Anti-Helix:** i bordi interni
- **Lobo**
- **Tacca intratragica:** è il punto tra il lobo e il foro dell’orecchio
![[Pasted image 20241120134522.png]]

##### Aspetti positivi:
È un tratto passivo, non varia con gli anni, solitamente non è coperto, non sono richieste alte risoluzioni, non è affetto da variazioni dell'espressione.
##### Aspetti negativi:
Sensibili a variazioni di posa e illuminazione.
Utilizzo estremamente limitato in ambito forense.

Una prima prova dell’universalità e unicità di questo tratto è quella di Iannarelli nel 1989, purtroppo però l’indagine è stata effettuata campionando pochissimi esempi.
Vengono misurate 12 distanze tra dei punti dell'orecchio.
Iannarelli ha poi classificato le orecchie in 4 possibili forme esterne: triangolari, circolari, rettangolari e ovali.
![[Pasted image 20241120140235.png]]
![[Pasted image 20241228171617.png]]
### Localizzazione dell'orecchio
3 approcci diversi:
- **Individuazione di punti di interesse:** diversi possibili approcci, uno di questi è usare le reti neurali. Si possono trainare su immagini a bassa risoluzione perché ci interessa solo estrarre punti, in questa fase non siamo interessati ai dettagli. Individuati questi possiamo costruire il rettangolo che conterrà l'orecchio, eventualmente si può normalizzare la dimensione dell'orecchio
- **Object detection:** esistono classificatori in grado di riconoscere le orecchie. Si possono usare object detector come Viola-Jones (AdaBoost).
- **Tecniche di localizzazione 3D:** si basano su una valutazione della profondità e della curvatura delle regioni dell'orecchio. Training offline: partendo da un modello 3D del profilo del soggetto, vengono identificati i punti massimi di curvatura. Viene creata un'immagine binaria (0 nero 1 bianco) e la regione corrispondente all'orecchio viene estratta manualmente. Le regioni estratte vengono fuse insieme per formare un modello di riferimento. Il test viene eseguito online. L'immagine binaria viene calcolata per il nuovo modello, vengono identificati i punti di curvatura massima e minima e vengono ricercate le regioni corrispondenti al modello.

### Riconoscimento dell'orecchio
#### 2D
- **Approccio di Iannarelli:** viene identificato il punto di origine dell'helix (crus of helix) e viene usato come punto di partenza di 4 segmenti su cui effettuare 12 misurazioni. Il vettore di feature contiene informazioni come il gender, l'etnicità e le 12 misurazioni. Problema: se il punto di origine è errrato, tutta la misurazione è errata (vedi immagine sopra). Problema 2: sensibile all'illuminazione.
- **Voronoi:** Approccio presentato da Burge e Burger per risolvere il problema dell'approccio di Iannarelli. Questo approccio usa i diagrammi di Voronoi e la distanza dei grafi. Prevede canny edge per trovare gli edge, edge relaxation per unire i segmenti di bordi vicini, formando curve più ampie. Le relazioni tra le curve non vengono rappresentate in modo assoluto, ma attraverso una struttura *invariante rispetto alle trasformazioni affini (es. rotazione, scalatura, traslazione) e cambiamenti minimi di forma*: si usa il **neighborhood Voronoi graph**:
	- Diagramma di Voronoi: viene partizionato in regioni sulla base della vicinezza dei *seed points* in un sottoinsieme del piano
	 ![[Pasted image 20241121015024.png]]
	- **neighborhood Voronoi graph**: grafo dei punti centrali di ogni regione
	- Il matching avviene cercando gli isomorfismi di sottografo. Metodo mai sperimentato, in ogni caso la segmentazione dell'orecchio è molto sensibile alle variazioni di posa e illuminazione.
- **Campi di forza:** basati su proprietà fisiche. Ogni pixel viene considerato come un "attrattore", come una sorta di particella carica. Ogni pixel attrae i suoi vicini proporzionalmente all'intensità del pixel (0: carica neutra, 255: carica massima) e inversamente proporzionalmente alla quadrato della distanza.
	- Per ogni pixel si calcola la forza che gli altri pixel attuano su questo (modulo, direzione e verso)
	- si fissano una serie di punti su un'ellisse attorno all'orecchio
	- a partire da ciascun punto si segue l'attrazione del campo di forza
	- le linee di campo convergono in punti detti pozzi (sink). L'orecchio è rappresentato tramite la mappa di convergenza
![[Pasted image 20241120143424.png]]![[Pasted image 20241121020116.png]]
Metodo robusto per quanto riguarda punti iniziali, risoluzione e rumore.
- **Jets:** si applicano una serie di Gabor filter (che ricordiamo, sono convoluzioni di kernel), producendo dei feature vector chiamati Gabor Jets.
	- Si costruisce un grafo (ear graph) in cui:
		- i nodi corrispondono a punti rilevanti dell'orecchio (anthielix, superior anthihelix crus, inferior anthihelix crus)
		- i nodi sono etichettati con i rispettivi Gabor Jets
		- Si applica PCA per ridurre la dimensionalità dei jet, ottenendo un **eigenear graph**: rappresentazione più compatta e generalizzata degli ear graph.
		- Il matching è per similarità dei jets.

- **Angle vector
	- si fa edge detection e si considerano gli angoli (ora vediamo come si calcolano sti angoli)
	- gli angoli vengono divisi in due vettori:
		- 1. contiene angoli derivati dai bordi esterni dell’orecchio (outer edge)
		- 2. contiene angoli derivati da tutti gli altri bordi interni o vicini, esclusi quelli già usati per il primo vettore
	- Si considerano la max-line (linea più lunga che ci sia con entrambi gli estremi sui bordi dell'orecchio) e le normal-lines (segmenti perpendicolari alla max-line, se sono n dividono la max-line in n+1 parti uguali)
	- **Vettore 1:**
		- Per ogni punto di intersezione tra i bordi esterni e le normal lines, si forma un angolo tra il segmento che collega il punto di intersezione con il centro della maxline, e il segmento che collega l'estremità superiore della maxline con il centro.
	- **Vettore 2:**
		- Costruito allo stesso modo ma si utilizzano tutti i punti di intersezione delle normal lines con i bordi interni.
	- **Matching:** avviene calcolando
		- somma delle differenze assolute tra gli elementi corrispondenti dei vettori
		- numero dei valori simili nei vettori (che rientrano in una certa threshold)
	![[Pasted image 20241228174722.png]]

- **Alignment (usando Active Shape Model or Scale Invariant Feature Transform):**
	- il modello ASM è un modello statistico che si deforma iterativamente per adattarsi a una nuova immagine
- **SIFT:** classico matching con SIFT
	- Si fanno vari gaussian smoothing e resampling dell'immagine
	- Si applica DoG (difference of gaussian) tra le immagini derivate. Si considerano i punti di massimo e di minimo (maxima and minima) del risultato della DoG, si thresholda ecc. Niente di diverso dal classico algoritmo SIFT insomma.

#### 3D
Si valutano curvature e profondità delle regioni rilevanti dell'orecchio. Il matching avviene tra regioni corrispondenti chiamate patch.

#### Termogrammi
##### Pro:
- orecchio facilmente localizzabile
- robust to hair occlusion
- different color facilitate segmentation
##### Contro
- Sensibile al movimento
- Bassa risoluzione
- Costo

#### Combinazione 2D/3D
Si combinano le informazioni 2D e 3D per migliorare le performance di riconoscimento. Il problema è trovare la migliore strategia di fusione.

Combinazione faccia/orecchio
Approccio di Victor, Bowyer e Sarkar.

- Preprocessing ridimensionando le immagini in 400x500
- Normalizzazione dati due punti di riferimento sia per faccia che per orecchio
- Mascheramento delle regioni non appartenenti all'orecchio
- Viene usato PCA per ridurre la dimensionalità generando un'immagine 400x500
- ![[Pasted image 20241120144654.png]]

Risultati ottenuti:
- La faccia fornisce sempre risultati migliori dell'orecchio in tutti i casi

Considerando variazioni di:
- Illuminazione
- Posa
- Giorno in cui viene scattata l; immagine
I risultati sono abbastanza diversi:
![[Pasted image 20241121023854.png]]


Vari modi per combinare faccia e orecchio:
![[Pasted image 20241121024042.png]]
![[Pasted image 20241121024108.png]]
Testando con tanti soggetti, vediamo come la miglior casistica è Face+Ear (combinazione in parallelo di faccia e orecchio)