State of Linux Voice Recognition

Talegjenkjenning i Linux sporer Windows- og Mac-plattformene fordi både Microsoft og Apple har investert betydelig tid og kostnader i å legge til stemmekommando- eller stemmeassistentprogramvare i sine viktigste operativsystemer.

Selv om situasjonen ikke er dyster for Linux, som den er med mange banebrytende teknologier, forblir det gratis og åpen kildekodeuniverset et skritt bak, spesielt med talekommandoverktøy.


Innfødt Linux talegjenkjenning

Ingen Linux-distribusjon fokuserer på talegjenkjenning. Apper som støtter talegjenkjenningsfunksjoner, er imidlertid avhengige av en håndfull open source-biblioteker, inkludert Sphinx, Kaldi, Julius og Mozilla Deepspeech.

Negativespace / Mockup. Bilder 

Disse bibliotekene er avhengige av et talekorpus som tilbyr variasjoner av lyder for å trene AI og derfor korrekt oversette talen til tekst. Imidlertid er open source-prosjekter mindre sofistikerte (fordi de har mindre bidrag til å trene AI), noe som betyr at de fleste tekst-til-tale-apper for Linux ofte forkaster konverteringen. Vanligvis slår de det så grundig at det ikke er klart hva den opprinnelige talen kunne ha vært.


Alternativer for Linux tale til tekst

Bruk en av fem løsningsveier.

  • Stol på innfødte Linux-apper som er tilgjengelige i distribusjonens repositorier - hvis noen vises.
  • Amazon gjorde Alexa tilgjengelig for Linux, inkludert for Raspberry Pi. Du må utføre mye tilpasset justering for å få denne ordningen til å fungere, men det vil fungere.
  • Få tilgang til Google Speech API i nettleseren din via DictationIO. Denne tjenesten fungerer kun for diktering; du kan ikke bruke den til stemmekommando. Den drives av Googles AI, så kvaliteten er god.

  • Bruk en tjeneste som Alexa eller Google Assistant som et talekommandoverktøy for Linux gjennom Triggercmd-tjenesten. Triggercmd kjører på datamaskinen din; bruk den til å påkalle Alexa eller Google Assistant og få disse verktøyene til å utføre spesifikke Bash-skript basert på kommandoen din. Si noe sånt som "OK Google, be utløserkommandoen om å åpne kalkulatoren." Google Assistant fungerer som mellomledd med Triggercmd for å kjøre Bash-skriptet spesifisert av uttrykket "åpne kalkulatoren."
  • Bruk Wine eller en virtuell maskin med programvare for Windows som Dragon NaturallySpeaking. Med riktig tilpasning kan du bruke Dragon-motoren til transkripsjon, selv om denne løsningen ikke fungerer for stemmekommandoprogrammer.

Legg igjen en kommentar