Oto jak faktycznie działa Live Caption na Androida 10

Autor: Peter Berry
Data Utworzenia: 16 Lang L: none (month-012) 2021
Data Aktualizacji: 1 Lipiec 2024
Anonim
Kia Proceed GT 2020 - system informacyjno-rozrywkowy UVO Connect o przekątnej 10,25 cala
Wideo: Kia Proceed GT 2020 - system informacyjno-rozrywkowy UVO Connect o przekątnej 10,25 cala

Zawartość


Live Caption to jedna z najfajniejszych jak dotąd funkcji Androida, wykorzystująca uczenie maszynowe na urządzeniu do generowania napisów do lokalnych filmów i klipów internetowych.

Google opublikował post na blogu opisujący dokładnie, jak działa ta fajna funkcja, i na początek składa się z trzech modeli uczenia maszynowego na urządzeniu.

Istnieje model rekurencyjnej transdukcji sekwencji sieci neuronowej (RNN-T) do samego rozpoznawania mowy, ale Google wykorzystuje również rekurencyjną sieć neuronową do przewidywania interpunkcji.

Trzeci model uczenia maszynowego na urządzeniu to splotowa sieć neuronowa (CNN) dla zdarzeń dźwiękowych, takich jak śpiew ptaków, klaskanie ludzi i muzyka. Google twierdzi, że ten trzeci model uczenia maszynowego wywodzi się z jego pracy nad aplikacją dostępności Live Transcribe, która jest w stanie transkrybować zdarzenia mowy i dźwięku.

Ograniczanie wpływu napisów na żywo

Firma twierdzi, że podjęła szereg działań w celu zmniejszenia zużycia baterii i wymagań dotyczących wydajności.Po pierwsze, silnik pełnego automatycznego rozpoznawania mowy (ASR) działa tylko po wykryciu mowy, w przeciwieństwie do ciągłego działania w tle.


„Na przykład po wykryciu muzyki i braku mowy w strumieniu audio etykieta pojawi się na ekranie, a model ASR zostanie rozładowany. Model ASR jest ładowany z powrotem do pamięci tylko wtedy, gdy mowa jest ponownie w strumieniu audio ”, wyjaśnia Google w swoim blogu.

Google zastosował także takie techniki, jak przycinanie połączeń neuronowych (zmniejszenie rozmiaru modelu mowy), zmniejszenie zużycia energii o 50% i umożliwienie ciągłego działania funkcji Live Caption.

Google wyjaśnia, że ​​wyniki rozpoznawania mowy są aktualizowane kilka razy na sekundę podczas tworzenia podpisu, ale przewidywanie interpunkcji jest inne. Gigant wyszukiwania twierdzi, że zapewnia przewidywanie interpunkcji „na końcu tekstu z ostatnio rozpoznanego zdania”, aby zmniejszyć zapotrzebowanie na zasoby.

Funkcja Live Caption jest teraz dostępna w serii Google Pixel 4, a Google twierdzi, że będzie dostępna „wkrótce” w serii Pixel 3 i innych urządzeniach. Firma twierdzi, że pracuje także nad obsługą innych języków i lepszym wsparciem dla treści dla wielu użytkowników.


Poświęć chwilę i zatanów ię, ile projekt graficzny potykaz ię codziennie. To wzytko dotyczy marketingu, mediów połecznościowych, a nawet YouTuberzy wymagają wyokiej jakości miniaturek do gen...

Microoft Excel jet jednym z najważniejzych narzędzi bizneowych, jakie kiedykolwiek tworzono. Jeśli nauczyz ię go w pełni wykorzytywać, to maz najwyżza zbywalna umiejętność. Zadania, które wcześni...

Polecany Dla Ciebie