Dipendendo se vuoi annotare un video con sottotitoli ed emoji carini (ad esempio per metterlo su youtube), o se vuoi annotare oggetti o eventi nel video allo scopo di usare i dati annotati per addestrare algoritmi di apprendimento automatico, devi scegliere tra i due tipi di risposte qui sotto.
Per lo scopo dell'apprendimento automatico, queste annotazioni sono di solito estremamente lunghe. (Per esempio, una startup di guida autonoma ha menzionato in un podcast che per ogni ora di guida, investono oltre 600 ore per annotare i dati raccolti). Quindi la scelta dello strumento di annotazione può avere un enorme effetto di costo in termini di tempo. Annotare immagini è di gran lunga più semplice che annotare video - il video è una struttura di dati complessa, e tutto ciò che lo riguarda è più difficile. Per annotare su un video, devi gestire codec e lettori video incompatibili, sincronizzare le annotazioni tra i fotogrammi, tracciare più oggetti annotati con stati variabili lungo più fotogrammi, e progettare l'UX per consentire operazioni complesse. Per finire, in un minuto di video ci sono 1800 immagini che devono essere annotate. Nel nostro caso particolare di guida autonoma, abbiamo usato Tasq.
UNA GUIDA PER L'ANNOTAZIONE DEI VIDEO PER L'APPRENDIMENTO MACCHINA. Ecco i punti salienti:
Se state cercando di annotare video per un set di dati di addestramento di ML, quali sono le vostre opzioni? Eccole, dalla peggiore alla migliore.
- Prendi un campione dai tuoi video, estrai tutti i fotogrammi e annotali come immagini. Vi raccomandiamo di non farlo, perché vi state perdendo tutti i vantaggi inerenti al formato video e allo stesso tempo state sostenendo il costo di annotare un gran numero di immagini. Anche se si usa un team di annotatori, questo approccio non è efficiente.
- Prendi alcuni video, prendi uno strumento di annotazione video, e fai uno sforzo personale per qualche giorno per annotarli (come video). Probabilmente questo non funzionerà. Anche un solo breve video può richiedere molte ore per l'annotazione.
- Utilizzare un dataset rilevante disponibile per l'allenamento. A seconda del vostro problema specifico e di quanto i vostri dati siano simili al dataset di allenamento disponibile, questa è una grande scorciatoia da prendere. Se avete questa opzione, sceglietela.
- Prendete un campione dei vostri video, procuratevi uno strumento di annotazione video, assumete un team interno/remoto e annotateli (come video). Questo può funzionare. Continua a leggere per conoscere gli strumenti di annotazione.
Se hai deciso di usare uno strumento di annotazione video, ecco le caratteristiche importanti da considerare negli strumenti da valutare:
- Annotazione dei fotogrammi chiave. Ci sono 1800 fotogrammi al minuto in un video a 30fps, ma i fotogrammi successivi sono di solito correlati: non volete (e non dovete) annotare ogni singolo fotogramma da zero. Come minimo, è necessario annotare i fotogrammi chiave e interpolare tra loro.
- Formato video nativo. Non vuoi estrarre tutti i fotogrammi dal video per essere in grado di annotarli - se il tuo strumento ha bisogno di questo passo, è un segno sicuro che questo strumento sta, infatti, annotando immagini e non video.
- Tracking e integrazione ML. Il tracciamento automatico degli oggetti annotati (per esempio, usando il flusso ottico) può far risparmiare molto tempo nelle annotazioni. La capacità di utilizzare le previsioni dei modelli di apprendimento automatico per le annotazioni iniziali (che devono essere corrette dagli esperti) è un altro risparmio di tempo. Gli strumenti che utilizzano l'apprendimento attivo, dove l'annotatore sta essenzialmente insegnando il modello ML, possono essere particolarmente utili.
- Identità coerenti. Quando c'è più di un oggetto annotato, gli oggetti dovrebbero avere ID coerenti per tutta la durata del video. Questo è utile ogni volta che si vuole tracciare gli oggetti in un video, e diventa cruciale se gli oggetti si muovono dentro e fuori l'inquadratura durante il video.
- Annotazione distribuita. Ogni minuto di un video può richiedere ore di annotazioni. L'opzione di condividere il carico di lavoro di annotazione tra un team di lavoratori è estremamente vantaggiosa. Il processo di impostazione e configurazione per ogni lavoratore, se del caso, dovrebbe essere minimo.
- Segmentazione di video lunghi. Un altro aspetto della distribuzione di un grande carico di lavoro è la capacità di dividere i video lunghi in segmenti più brevi (ogni segmento può essere annotato da lavoratori diversi), e poi unire le annotazioni risultanti, con una qualità costante.
- Annotazioni multiple. Confronta e unisci più annotazioni da più operatori sullo stesso segmento video, per ridurre gli errori di annotazione e migliorare la qualità.
- Etichette personalizzate. Puoi personalizzare gli strumenti di annotazione per aggiungere le tue etichette? Puoi personalizzare gli strumenti di annotazione per aggiungere attributi personalizzati agli oggetti (es. colore del semaforo)?
- Tipi di annotazione. Ha quello che ti serve? Scatole di delimitazione (BBOX), linee, cerchi, punti, scatole 3D.