Come Ankur menziona nella sua risposta, questa sembra essere ancora un'area attiva di ricerca - ha trovato solo una delle implementazioni postate su Github. Il codice per il miglior modello Lipnet, non è disponibile.
- Lipnet: end to end sentence level lip reading, ICLR 2017 Questo sembra essere il lavoro più recente su questo settore - presentato per la conferenza ICLR il mese prossimo.
- Lipnet sostiene di essere il primo modello di lettura delle labbra a livello di frase con una precisione del 95,2% sul corpus GRID che supera il lettore di labbra umano esperto e il precedente stato dell'arte che ha una precisione del 84%.
- Il codice per questo non è disponibile
- I link al video mostrano i risultati di questo lavoro
Qui ci sono altri articoli di esempio
- Dynamic Stream Weighting for Turbo-Decoding-Based Audiovisual ASR 2016 Questo era il precedente modello di performance allo stato dell'arte 84% sul corpus GRID prima di lipnet
- Lipreading con Long Short-Term Memory Un codice di progetto per questo articolo è disponibile su Github (implementato in Keras) LipRead La performance di questo codice è 79.6% sullo stesso corpus GRID che Lipnet esegue al 95,2%
- Lettura delle labbra usando CNN e LSTM Non ho potuto trovare il codice sorgente neanche per questo.