Zawartość
Live Caption to jedna z najfajniejszych jak dotąd funkcji Androida, wykorzystująca uczenie maszynowe na urządzeniu do generowania napisów do lokalnych filmów i klipów internetowych.
Google opublikował post na blogu opisujący dokładnie, jak działa ta fajna funkcja, i na początek składa się z trzech modeli uczenia maszynowego na urządzeniu.
Istnieje model rekurencyjnej transdukcji sekwencji sieci neuronowej (RNN-T) do samego rozpoznawania mowy, ale Google wykorzystuje również rekurencyjną sieć neuronową do przewidywania interpunkcji.
Trzeci model uczenia maszynowego na urządzeniu to splotowa sieć neuronowa (CNN) dla zdarzeń dźwiękowych, takich jak śpiew ptaków, klaskanie ludzi i muzyka. Google twierdzi, że ten trzeci model uczenia maszynowego wywodzi się z jego pracy nad aplikacją dostępności Live Transcribe, która jest w stanie transkrybować zdarzenia mowy i dźwięku.
Ograniczanie wpływu napisów na żywo
Firma twierdzi, że podjęła szereg działań w celu zmniejszenia zużycia baterii i wymagań dotyczących wydajności.Po pierwsze, silnik pełnego automatycznego rozpoznawania mowy (ASR) działa tylko po wykryciu mowy, w przeciwieństwie do ciągłego działania w tle.
„Na przykład po wykryciu muzyki i braku mowy w strumieniu audio etykieta pojawi się na ekranie, a model ASR zostanie rozładowany. Model ASR jest ładowany z powrotem do pamięci tylko wtedy, gdy mowa jest ponownie w strumieniu audio ”, wyjaśnia Google w swoim blogu.
Google zastosował także takie techniki, jak przycinanie połączeń neuronowych (zmniejszenie rozmiaru modelu mowy), zmniejszenie zużycia energii o 50% i umożliwienie ciągłego działania funkcji Live Caption.
Google wyjaśnia, że wyniki rozpoznawania mowy są aktualizowane kilka razy na sekundę podczas tworzenia podpisu, ale przewidywanie interpunkcji jest inne. Gigant wyszukiwania twierdzi, że zapewnia przewidywanie interpunkcji „na końcu tekstu z ostatnio rozpoznanego zdania”, aby zmniejszyć zapotrzebowanie na zasoby.
Funkcja Live Caption jest teraz dostępna w serii Google Pixel 4, a Google twierdzi, że będzie dostępna „wkrótce” w serii Pixel 3 i innych urządzeniach. Firma twierdzi, że pracuje także nad obsługą innych języków i lepszym wsparciem dla treści dla wielu użytkowników.