C’è qualche programma per computer che può leggere le labbra da un video?

Come Ankur menziona nella sua risposta, questa sembra essere ancora un'area attiva di ricerca - ha trovato solo una delle implementazioni postate su Github. Il codice per il miglior modello Lipnet, non è disponibile.

  • Lipnet: end to end sentence level lip reading, ICLR 2017 Questo sembra essere il lavoro più recente su questo settore - presentato per la conferenza ICLR il mese prossimo.
    • Lipnet sostiene di essere il primo modello di lettura delle labbra a livello di frase con una precisione del 95,2% sul corpus GRID che supera il lettore di labbra umano esperto e il precedente stato dell'arte che ha una precisione del 84%.
    • Il codice per questo non è disponibile
  • I link al video mostrano i risultati di questo lavoro

Qui ci sono altri articoli di esempio

  • Dynamic Stream Weighting for Turbo-Decoding-Based Audiovisual ASR 2016 Questo era il precedente modello di performance allo stato dell'arte 84% sul corpus GRID prima di lipnet
  • Lipreading con Long Short-Term Memory Un codice di progetto per questo articolo è disponibile su Github (implementato in Keras) LipRead La performance di questo codice è 79.6% sullo stesso corpus GRID che Lipnet esegue al 95,2%
  • Lettura delle labbra usando CNN e LSTM Non ho potuto trovare il codice sorgente neanche per questo.