UneDose | Alexa, hvordan fungerer Siri? Stemmestyring forklaret

Lesley Fowler
0
2465
510

Reklame

Vi kan tale med næsten alle vores gadgets nu, men hvordan fungerer det nøjagtigt? Når du spørger “Hvilken sang er dette?” eller sige “Ring til mor”, der sker et mirakel af moderne teknologi. Og selvom det føles som om det er på forkant, går denne idé om at tale med enheder årtier tilbage - næsten så vidt som jetpacks i science fiction!

I dag er hovedparten af opmærksomheden mod stemmedrevet computing på smartphones. Apple, Amazon, Microsoft og Google er øverst i kæden, der hver tilbyder sin egen måde at tale med elektronik på. Du vidste, hvem de er: Siri, Alexa, Cortana og de navnløse “Ok, Google” være. Hvilket rejser et stort spørgsmål ...

Hvordan tager en enhed talte ord og gør dem til kommandoer, den kan forstå? I det væsentlige kommer det ned på mønstermatchning og fremsættelse af forudsigelser baseret på disse mønstre. Mere specifikt er stemmegenkendelse en kompleks opgave, der kommer fra Akustisk modellering og Sprogmodellering.

Akustisk modellering: Bølgeformer & telefoner

Akustisk modellering er processen med at tage en bølgeform af tale og analysere den ved hjælp af statistiske modeller. Den mest almindelige metode til dette er Skjult Markov modellering, som bruges i hvad der kaldes udtalsmodellering til at opdele tale i komponentdele, der kaldes telefoner (ikke at forveksle med faktiske telefonenheder). Microsoft har været en førende forsker på dette område i mange år.

Skjult Markov-modellering: sandsynlighedsstater

Skjult Markov-modellering er en forudsigelig matematisk model, hvor den aktuelle tilstand bestemmes ved at analysere output. Wikipedia har et godt eksempel ved at bruge to venner.

Forestil dig to venner - Local Friend og Remote Friend - som bor i forskellige byer. Local Friend ønsker at finde ud af, hvordan vejret er, hvor Remote Friend bor, men Remote Friend vil kun tale om, hvad han gjorde den dag: gå, shoppe eller rengøre. Sandsynligheden for hver aktivitet afhængig af dagens vejr.

Foregive, at dette er den eneste tilgængelige information. Med det kan Local Friend finde tendenser i, hvordan vejret ændrede sig fra dag til dag, og ved hjælp af disse trends kan hun begynde at uddanne gætte om, hvad dagens vejr vil være baseret på hendes venes aktivitet i går. (Du kan se et diagram over systemet ovenfor.)

Hvis du vil have et mere komplekst eksempel, så tjek dette eksempel på Matlab. Ved stemmegenkendelse sammenligner denne model i det væsentlige hver del af bølgeformen med hvad der kommer før og hvad der kommer efter, og mod en ordbog med bølgeformer for at finde ud af, hvad der bliver sagt.

I det væsentlige, hvis du laver en “th” lyd, den vil tjekke den lyd mod de mest sandsynlige lyde, der normalt kommer før og efter den. Måske betyder det at kontrollere mod “e” lyd, den “på” lyd osv. Når mønsteret matcher korrekt, har det hele dit ord. Dette er en forenkling, men du kan se Microsofts hele forklaring her.

Sprogmodellering: Mere end lyd

Akustisk modellering hjælper din computer med at forstå dig, men hvad med homonymer og regionale variationer i udtalen? Det er her sprogmodellering kommer på spil. Google har drevet en masse forskning på dette område, hovedsageligt gennem brug af N-gram modellering.

Når Google prøver at forstå din tale, gør den det baseret på modeller, der stammer fra dens massive bank af stemmesøgning og YouTube-transkriptioner. Alle disse sjove forkerte videotekster har faktisk hjulpet Google med at udvikle deres ordbøger. De brugte også den afgåede GOOG-411 til at indsamle oplysninger om, hvordan folk taler.

Hele denne sprogsamling skabte en lang række udtaler og dialekter, der skabte en robust ordbog med ord, og hvordan de lyder. Dette giver mulighed for kampe, der har en stærkt reduceret fejlprocent end brute force matching baseret på rå sandsynligheder. Du kan læse en kort artikel, der beskriver deres metoder her.

Mens Google er førende inden for dette felt, er der andre matematiske modeller, der udvikles, herunder kontinuerlige rummodeller og positionssprogmodeller, som er mere avancerede teknikker, der er født fra forskning inden for kunstig intelligens. Disse metoder er baseret på at gentage den slags ræsonnement, mennesker gør, når de lytter til hinanden. Disse er meget mere avancerede både hvad angår teknologien bag dem, men også den matematik og programmering, der er nødvendig for at kortlægge disse modeller.

N-Gram modellering: Sandsynlighed imødekommer hukommelse

N-gram modellering fungerer ud fra sandsynligheder, men den bruger en eksisterende ordbog til at skabe et forgrenet træ af muligheder, som derefter udjævnes for effektivitets skyld. På en måde betyder det, at N-gram Modeling fjerner meget af usikkerheden i den førnævnte Hidden Markov Modeling.

Som nævnt ovenfor stammer denne metodes styrke fra at have en stor ordbog med ord og forbrug, ikke kun primitivt lyde. Dette giver programmet mulighed for at fortælle forskellen mellem homofoner, f.eks “slå” og “roer”. Det er kontekstuelt, hvilket betyder, at når du taler om gårsdagens scoringer, trækker programmet ikke ord om borscht.

Men disse modeller er faktisk ikke det bedste til sprog, primært på grund af problemer med sandsynlighed for ord i længere sætninger. Efterhånden som du tilføjer flere ord til en sætning, går denne model lidt væk, da dine tidlige ord sandsynligvis ikke har indlæst alt, hvad der er nødvendigt til din komplette tanke.

Det er dog enkelt og nemt at implementere, hvilket gør det til en perfekt match for et firma som Google, der nyder at smide servere på beregningsproblemer. Du kan læse videre om N-gram Modelieng på University of Washington, eller du kan se et foredrag på Coursera.

Shouting at Clouds: Apps & Devices

Alle, der har brugt Siri, kender frustrationen over en langsom netværksforbindelse. Dette skyldes, at dine kommandoer til Siri sendes over netværket, der skal dekodes af Apple. Cortana til Windows-telefon kræver også, at en netværksforbindelse fungerer korrekt. I modsætning hertil er Amazons Echo blot en Bluetooth-højttaler uden internet.

Hvorfor forskellen? Fordi Siri og Cortana har brug for tunge servere til at afkode din tale. Kan det gøres på din telefon eller tablet? Jo, men du dræber din ydelse og batteriets levetid under processen. Det giver bare mere mening at downloade behandlingen til dedikerede maskiner.

Tænk på det på denne måde: din kommando er en bil, der sidder fast i mudderet. Du kan sandsynligvis skubbe det ud selv med nok tid og kræfter, men det vil tage timer og efterlade dig udmattet. I stedet ringer du til vejbistand, og de trækker din bil ud på få minutter. Ulempen er, at du er nødt til at ringe op og vente på dem, men det er stadig hurtigere og mindre beskatning.

Desktop-modeller som Nuance har en tendens til at bruge lokale ressourcer på grund af den mere kraftfulde hardware. Når alt kommer til alt, med Steve Jobs ord, er dit skrivebord en lastbil. (Hvilket gør det lidt fjollet, at OS X bruger servere til dens behandling.) Så når du skal behandle sprog og stemme, er det allerede udstyret godt nok til at håndtere det på egen hånd.

På den anden side tillader Android udviklere at inkludere offline talegenkendelse i deres apps. Google kan godt lide at komme foran teknologien, og du kan satse, at de andre platforme får denne mulighed, efterhånden som deres hardware bliver kraftigere. Ingen kan lide det, når dårlig dækning eller dårlig modtagelse lobotomiserer deres enhed.

Begynd at bruge stemmekommandoer nu

Nu hvor du kender de grundlæggende koncepter, skal du lege med dine forskellige enheder. Prøv den nye stemmetype i Google Dokumenter Hvordan stemmetype er den nye bedste funktion i Google Dokumenter Hvordan Stemmetype er den nye bedste funktion i Google Dokumenter Stemmegenkendelse er forbedret med spring og grænser i de senere år. Tidligere denne uge introducerede Google endelig stemmetype i Google Dokumenter. Men er det godt? Lad os finde ud af det! . Som om Web office-pakken ikke allerede var stærk nok, giver stemmestyring dig mulighed for at diktere og formatere dine dokumenter fuldstændigt. Dette udvides med den stærke teknologi, de allerede har designet til Chrome og Android.

Andre ideer inkluderer opsætning af din Mac til at bruge stemmekommandoer Sådan bruges talekommandoer på din Mac Sådan bruges talekommandoer på din Mac og opsætning af din Amazon Echo med automatisk checkout Hvordan Amazon Echo kan gøre dit hjem til et smart hjem Hvordan Amazon Echo Can Gør dit hjem til et smart hjem Smart hjemteknologi er stadig i de tidlige dage, men et nyt produkt fra Amazon kaldet "Echo" kan hjælpe med at bringe det ind i mainstream. . Lev i fremtiden og omfavn at tale med dine gadgets - selvom du bare bestiller flere papirhåndklæder. Hvis du er en smartphone-afhængig, har vi også tutorials til Siri 8 ting, som du sandsynligvis ikke indså, at Siri kunne gøre 8 ting, du sandsynligvis ikke indså, at Siri kunne gøre. Siri er blevet en af iPhone's definerende funktioner, men for for mange mennesker er det ikke altid det mest nyttige. Selvom noget af dette skyldes begrænsningerne i stemmegenkendelse, mærkeligt ved at bruge ..., kan Cortana 6 sejeste ting, du kan styre med Cortana i Windows 10 6 Sejeste ting, du kan styre med Cortana i Windows 10, Cortana kan hjælpe dig med at gå håndfri på Windows 10. Du kan lade hende søge i dine filer og på internettet, foretage beregninger eller trække vejrudsigten op. Her dækker vi nogle af hendes køligere færdigheder. , og Android OK, Google: 20 nyttige ting, du kan sige til din Android-telefon OK, Google: 20 nyttige ting, du kan sige til din Android-telefon. Google Assistant kan hjælpe dig med at få gjort meget på din telefon. Her er en hel masse grundlæggende, men nyttige OK Google-kommandoer til at prøve. .

Hvad er din yndlingsbrug af stemmestyring? Fortæl os det i kommentarerne.

Billedkreditter: T-flex via Shutterstock, Terencehonles via Wikimedia Foundation, Arizona State, Cienpies Design via Shutterstock