Antalet applikationer och vikten av röstgränssnitt växer snabbt

Innehåll

fyra stora
Amerikaner vill köpa
Tvätta, baka, städa!
Gammalt koncept. Har hennes tid äntligen kommit?
tekniskt svår fråga
Röst? Grafisk konst? Eller kanske båda?
Se upp för säkerheten!

En amerikansk familj i Portland, Oregon fick nyligen veta att Alexs röstassistent spelade in deras privata chattar och skickade dem till en vän. Ägaren till huset, kallad Danielle av media, sa till reportrar att hon "aldrig skulle ansluta den här enheten igen eftersom hon inte är att lita på."

alexa, som tillhandahålls av Echo-högtalare (1) och andra prylar i tiotals miljoner amerikanska hem, börjar spela in när den hör sitt namn eller "anropsord" talat av användaren. Det betyder att även om ordet "Alexa" nämns i en TV-annons kan enheten börja spela in. Det är precis vad som hände i det här fallet, säger Amazon, hårdvarudistributören.

"Resten av samtalet tolkades av röstassistenten som ett kommando att skicka ett meddelande", säger företaget i ett uttalande. "Vid något tillfälle frågade Alexa högt: "Till vem?" Fortsättningen av familjesamtalet om trägolv borde ha uppfattats av maskinen som en post på kundens kontaktlista.” Det är åtminstone vad Amazon tycker. Därmed reduceras översättningen till en serie olyckor.

Ångesten finns dock kvar. För av någon anledning i ett hus där vi fortfarande kände oss tillfreds, måste vi gå in i något slags "röstläge", titta på vad vi säger, vad TV:n sänder och, naturligtvis, vad denna nya högtalare på byrån säger . oss.

ändå, Trots tekniska brister och integritetsproblem, med den ökande populariteten för enheter som Amazon Echo, börjar folk vänja sig vid tanken på att interagera med datorer med sin röst..

Som Werner Vogels, CTO för Amazon, påpekade under sin AWS re:Invent-session i slutet av 2017, har tekniken hittills begränsat vår förmåga att interagera med datorer. Vi skriver in nyckelord i Google med hjälp av tangentbordet, eftersom detta fortfarande är det vanligaste och enklaste sättet att mata in information i en maskin.

sa Vogels. -

fyra stora

När vi använde Googles sökmotor på telefonen märkte vi förmodligen en mikrofonskylt med ett samtal att tala för länge sedan. Detta googla nu (2), som kan diktera en sökfråga, ange ett meddelande med röst, etc. Under de senaste åren har Google, Apple och Amazon förbättrats avsevärt röstigenkänningsteknik. Röstassistenter som Alexa, Siri och Google Assistant spelar inte bara in din röst, utan förstår också vad du säger till dem och svarar på frågor.

Google Now är tillgängligt gratis för alla Android-användare. Applikationen kan till exempel ställa in ett larm, kolla väderprognosen och kolla rutten på Google maps. Conversational extension of Google Now stater Google Assistant () – virtuell assistans till användaren av utrustningen. Det finns främst på mobila och smarta hemenheter. Till skillnad från Google Now kan den delta i ett tvåvägsutbyte. Assistenten debuterade i maj 2016 som en del av Googles meddelandeapp Allo, såväl som i Google Home-rösthögtalaren (3).

3. Google Home

IOS-systemet har också sin egen virtuella assistent, Siri, som är ett program som ingår i Apples operativsystem iOS, watchOS, tvOS homepod och macOS. Siri debuterade med iOS 5 och iPhone 4s i oktober 2011 på Let's Talk iPhone-konferensen.

Mjukvaran är baserad på ett konversationsgränssnitt: den känner igen användarens naturliga tal (med iOS 11 är det också möjligt att ange kommandon manuellt), svarar på frågor och slutför uppgifter. Tack vare introduktionen av maskininlärning, en assistent över tid analyserar personliga preferenser användaren för att ge mer relevanta resultat och rekommendationer. Siri kräver en konstant internetanslutning - de viktigaste informationskällorna här är Bing och Wolfram Alpha. iOS 10 introducerade stöd för tredjepartstillägg.

Ännu en av de fyra stora Cortana. Det är en intelligent personlig assistent skapad av Microsoft. Det stöds på plattformarna Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android och iOS. Cortana introducerades först vid Microsoft Build Developer Conference i april 2014 i San Francisco. Namnet på programmet kommer från namnet på en karaktär från spelserien Halo. Cortana finns på engelska, italienska, spanska, franska, tyska, kinesiska och japanska.

Användare av det redan nämnda programmet alexa de måste också överväga språkbegränsningar - den digitala assistenten talar bara engelska, tyska, franska och japanska.

Amazon Virtual Assistant användes först i Amazon Echo och Amazon Echo Dot smarta högtalare utvecklade av Amazon Lab126. Det ger röstinteraktion, musikuppspelning, skapande av att-göra-listor, alarminställning, podcastströmning, ljudboksuppspelning och väder-, trafik-, sport- och annan nyhetsinformation i realtid som nyheter (4). Alexa kan styra flera smarta enheter för att skapa ett hemautomationssystem. Det kan också användas för att göra bekväm shopping i Amazon-butiken.

4. Vad användare använder Echo för (enligt forskning)

Användare kan förbättra Alexa-upplevelsen genom att installera Alexa "skills" (), ytterligare funktioner utvecklade av tredje part, oftare kallade appar som väder- och ljudprogram i andra inställningar. De flesta Alexa-enheter låter dig aktivera din virtuella assistent med ett väckningslösenord, som kallas .

Amazon dominerar definitivt marknaden för smarta högtalare idag (5). IBM, som introducerade en ny tjänst i mars 2018, försöker komma in bland de fyra bästa Watsons assistent, designad för företag som vill skapa sina egna system av virtuella assistenter med röststyrning. Vad är fördelen med IBM-lösningen? Enligt företagsrepresentanter, först och främst, om mycket större möjligheter till personalisering och integritetsskydd.

För det första är Watson Assistant inte märkt. Företag kan skapa sina egna lösningar på denna plattform och märka dem med sitt eget varumärke.

För det andra kan de träna sina hjälpsystem med hjälp av sina egna datamängder, vilket IBM säger gör det lättare att lägga till funktioner och kommandon till det systemet än andra VUI-tekniker (röstanvändargränssnitt).

För det tredje förser Watson Assistant inte IBM med information om användaraktivitet – utvecklare av lösningar på plattformen kan bara hålla värdefull data för sig själva. Under tiden bör alla som bygger enheter, till exempel med Alexa, vara medvetna om att deras värdefulla data kommer att hamna på Amazon.

Watson Assistant har redan flera implementeringar. Systemet användes till exempel av Harman, som skapade en röstassistent för konceptbilen Maserati (6). På Münchens flygplats driver en IBM-assistent en Pepper-robot för att hjälpa passagerare att flytta runt. Det tredje exemplet är Chameleon Technologies, där röstteknik används i en smart hemmätare.

6. Watson Assistant i en Maserati konceptbil

Det är värt att tillägga att den bakomliggande tekniken här inte heller är ny. Watson Assistant inkluderar krypteringsmöjligheter för befintliga IBM-produkter, Watson Conversation och Watson Virtual Agent, samt API:er för språkanalys och chatt.

Amazon är inte bara ledande inom smart röstteknik, utan förvandlar det till en direkt verksamhet. Vissa företag har dock experimenterat med Echo-integration mycket tidigare. Sisense, ett företag inom BI- och analysbranschen, introducerade Echo-integrationen i juli 2016. I sin tur beslutade startupen Roxy att skapa sin egen mjukvara och hårdvara med röststyrning för besöksnäringen. Tidigare i år introducerade Synqq en anteckningsapp som använder röst- och naturligt språkbehandling för att lägga till anteckningar och kalenderposter utan att behöva skriva dem på ett tangentbord.

Alla dessa småföretag har höga ambitioner. Mest av allt fick de dock veta att inte alla användare vill överföra sina data till Amazon, Google, Apple eller Microsoft, som är de viktigaste spelarna för att bygga plattformar för röstkommunikation.

Amerikaner vill köpa

Under 2016 stod röstsökning för 20 % av alla Googles mobilsökningar. Människor som använder denna teknik dagligen nämner dess bekvämlighet och multitasking bland dess största fördelar. (till exempel möjligheten att använda en sökmotor när du kör bil).

Visiongain-analytiker uppskattar det nuvarande marknadsvärdet för smarta digitala assistenter till 1,138 miljarder dollar.Det finns fler och fler sådana mekanismer. Enligt Gartner redan i slutet av 2018 30 % av våra interaktioner med teknik kommer att vara genom samtal med röstsystem.

Det brittiska analysföretaget IHS Markit uppskattar att marknaden för AI-drivna digitala assistenter kommer att nå 4 miljarder enheter i slutet av detta år, och den siffran kan stiga till 2020 miljarder år 7.

Enligt rapporter från eMarketer och VoiceLabs använde 2017 miljoner amerikaner röststyrning minst en gång i månaden under 35,6. Det innebär en ökning med nästan 130 % jämfört med föregående år. Bara marknaden för digitala assistenter förväntas växa med 2018 % under 23. Det betyder att du redan kommer att använda dem. 60,5 miljoner amerikaner, vilket kommer att resultera i konkreta pengar för deras producenter. RBC Capital Markets uppskattar att Alexa-gränssnittet kommer att generera upp till 2020 miljarder dollar i intäkter för Amazon år 10.

Tvätta, baka, städa!

Röstgränssnitt kommer allt mer djärvt in på marknaderna för hushållsapparater och hemelektronik. Detta kunde man se redan under förra årets utställning IFA 2017. Det amerikanska företaget Neato Robotics introducerade till exempel en robotdammsugare som ansluter till en av flera smarta hemplattformar, bland annat Amazon Echo-systemet. Genom att prata med Echo smarta högtalare kan du instruera maskinen att rengöra hela ditt hus vid specifika tider på dygnet.

Andra röstaktiverade produkter visades upp på mässan, allt från smarta TV-apparater som säljs under varumärket Toshiba av det turkiska företaget Vestel till uppvärmda filtar av det tyska företaget Beurer. Många av dessa elektroniska enheter kan även fjärraktiveras med hjälp av smartphones.

Men enligt Bosch-representanter är det för tidigt att säga vilket av hemassistentalternativen som kommer att bli dominerande. På IFA 2017 visade en tysk teknisk grupp upp tvättmaskiner (7), ugnar och kaffemaskiner som ansluter till Echo. Bosch vill också att deras enheter ska vara kompatibla med Google och Apples röstplattformar i framtiden.

7. Bosch tvättmaskin som ansluts till Amazon Echo

Företag som Fujitsu, Sony och Panasonic utvecklar sina egna AI-baserade röstassistentlösningar. Sharp lägger till denna teknik till ugnar och små robotar som kommer in på marknaden. Nippon Telegraph & Telephone anställer hårdvaru- och leksakstillverkare för att anpassa ett röststyrt artificiell intelligenssystem.

Gammalt koncept. Har hennes tid äntligen kommit?

Faktum är att konceptet Voice User Interface (VUI) har funnits i decennier. Alla som såg Star Trek eller 2001: A Space Odyssey för år sedan förväntade sig förmodligen att vi runt år 2000 alla skulle styra datorer med våra röster. Dessutom var det inte bara science fiction-författare som såg potentialen i denna typ av gränssnitt. År 1986 frågade Nielsen-forskare IT-proffs vad de trodde skulle vara den största förändringen av användargränssnitt år 2000. De pekade oftast på utvecklingen av röstgränssnitt.

Det finns skäl att hoppas på en sådan lösning. Verbal kommunikation är trots allt det naturligaste sättet för människor att medvetet utbyta tankar, så att använda det för interaktion mellan människa och maskin verkar vara den bästa lösningen hittills.

En av de första VUI:erna, kallad skolåda, skapades i början av 60-talet av IBM. Det var föregångaren till dagens röstigenkänningssystem. Utvecklingen av VUI-enheter begränsades dock av gränserna för datorkraft. Att analysera och tolka mänskligt tal i realtid kräver mycket ansträngning, och det tog mer än femtio år att komma till den punkt där det faktiskt blev möjligt.

Enheter med röstgränssnitt började dyka upp i massproduktion i mitten av 90-talet, men blev inte populära. Den första telefonen med röststyrning (uppringning) var Philips Sparksläpptes 1996. Denna innovativa och lättanvända enhet var dock inte fri från tekniska begränsningar.

Andra telefoner utrustade med former av röstgränssnitt (skapade av företag som RIM, Samsung eller Motorola) kommer regelbundet ut på marknaden, vilket gör att användare kan ringa med röst eller skicka textmeddelanden. Alla krävde dock att man memorerade specifika kommandon och uttalade dem i en påtvingad, konstgjord form, anpassad till kapaciteten hos den tidens enheter. Detta genererade ett stort antal fel, vilket i sin tur ledde till missnöje hos användarna.

Men vi går nu in i en ny era av datoranvändning, där framsteg inom maskininlärning och artificiell intelligens låser upp potentialen för samtal som ett nytt sätt att interagera med teknik (8). Antalet enheter som stöder röstinteraktion har blivit en viktig faktor som har haft stor inverkan på utvecklingen av VUI. Idag äger nästan 1/3 av världens befolkning redan smartphones som kan användas för den här typen av beteende. Det ser ut som att de flesta användare äntligen är redo att anpassa sina röstgränssnitt.

8. Modern historia av utvecklingen av röstgränssnittet

Men innan vi fritt kan prata med en dator, som karaktärerna i A Space Odyssey gjorde, måste vi övervinna ett antal problem. Maskiner är fortfarande inte särskilt bra på att hantera språkliga nyanser. Förutom många människor känner sig fortfarande obekväma med att ge röstkommandon till en sökmotor.

Statistik visar att röstassistenter främst används hemma eller bland nära vänner. Ingen av de intervjuade erkände att de använt röstsökning på offentliga platser. Men denna blockad kommer sannolikt att försvinna med spridningen av denna teknik.

tekniskt svår fråga

Problemet som system (ASR) står inför är att extrahera användbar data från en talsignal och associera den med ett visst ord som har en viss betydelse för en person. Ljuden som produceras är olika varje gång.

Talsignalvariabilitet är dess naturliga egenskap, tack vare vilken vi till exempel känner igen en accent eller intonation. Varje element i taligenkänningssystemet har en specifik uppgift. Baserat på den bearbetade signalen och dess parametrar skapas en akustisk modell, som är associerad med språkmodellen. Igenkänningssystemet kan arbeta utifrån ett litet eller stort antal mönster, vilket bestämmer storleken på det ordförråd som det fungerar med. De kan vara små ordböcker när det gäller system som känner igen enskilda ord eller kommandon, samt stora databaser innehållande motsvarigheten till språkmängden och med hänsyn till språkmodellen (grammatik).

Problem med röstgränssnitt i första hand förstå tal korrekt, där till exempel hela grammatiska sekvenser ofta utelämnas, förekommer språkliga och fonetiska fel, fel, utelämnanden, talfel, homonymer, omotiverade upprepningar etc. Alla dessa ACP-system måste fungera snabbt och tillförlitligt. Det är åtminstone förväntningarna.

Källan till svårigheter är också andra akustiska signaler än det igenkända talet som kommer in i igenkänningssystemets ingång, dvs. alla sorter störningar och buller. I det enklaste fallet behöver du dem filtrera bort. Denna uppgift verkar rutinmässig och enkel - trots allt filtreras olika signaler och varje elektronikingenjör vet vad man ska göra i en sådan situation. Detta måste dock göras mycket noggrant och noggrant om resultatet av taligenkänning ska uppfylla våra förväntningar.

Den filtrering som för närvarande används gör det möjligt att tillsammans med talsignalen ta bort det externa bruset som mikrofonen tar upp och de interna egenskaperna hos själva talsignalen, vilket gör det svårt att känna igen den. Ett mycket mer komplext tekniskt problem uppstår dock när störningen av den analyserade talsignalen är ... en annan talsignal, det vill säga till exempel högljudda diskussioner runt omkring. Denna fråga är känd i litteraturen som den så kallade . Redan detta kräver användning av komplexa metoder, de sk. dekonvolution (löser upp) signalen.

Problemen med taligenkänning slutar inte där. Det är värt att inse att tal innehåller många olika typer av information. Den mänskliga rösten antyder ägarens kön, ålder, olika karaktärer eller hälsotillståndet. Det finns en omfattande avdelning för biomedicinsk teknik som sysslar med diagnos av olika sjukdomar baserat på de karakteristiska akustiska fenomen som finns i talsignalen.

Det finns även applikationer där huvudsyftet med akustisk analys av en talsignal är att identifiera talaren eller verifiera att han är den han utger sig för att vara (röst istället för nyckel, lösenord eller PUK-kod). Detta kan vara viktigt, särskilt för smarta byggtekniker.

Den första komponenten i ett taligenkänningssystem är микрофон. Den signal som mikrofonen tar upp är dock vanligtvis till liten nytta. Studier visar att ljudvågens form och förlopp varierar mycket beroende på person, talhastighet, och delvis samtalspartnerns humör – samtidigt som de i liten utsträckning speglar själva innehållet i de talade kommandona.

Därför måste signalen bearbetas korrekt. Modern akustik, fonetik och datavetenskap ger tillsammans en rik uppsättning verktyg som kan användas för att bearbeta, analysera, känna igen och förstå en talsignal. Signalens dynamiska spektrum, den sk dynamiska spektrogram. De är ganska lätta att få tag på, och tal, presenterat i form av ett dynamiskt spektrogram, är relativt lätt att känna igen med hjälp av tekniker som liknar dem som används vid bildigenkänning.

Enkla element i tal (till exempel kommandon) kan kännas igen på den enkla likheten mellan hela spektrogram. Till exempel innehåller en röstaktiverad mobiltelefonordbok bara några tiotal till några hundra ord och fraser, vanligtvis förstaplade så att de enkelt och effektivt kan identifieras. Detta är tillräckligt för enkla kontrolluppgifter, men det begränsar kraftigt den övergripande tillämpningen. System byggda enligt schemat stöder som regel endast specifika högtalare för vilka röster är speciellt utbildade. Så om det är någon ny som vill använda sin röst för att styra systemet så kommer de med största sannolikhet inte att accepteras.

Resultatet av denna operation kallas spektrogram 2-Wdet vill säga ett tvådimensionellt spektrum. Det finns en annan aktivitet i det här blocket som är värt att uppmärksamma - segmentering. Generellt sett talar vi om att bryta upp en kontinuerlig talsignal i delar som kan kännas igen separat. Det är först från dessa individuella diagnoser som erkännandet av helheten görs. Denna procedur är nödvändig eftersom det inte är möjligt att identifiera ett långt och komplext tal på en gång. Hela volymer har redan skrivits om vilka segment som ska särskiljas i en talsignal, så vi kommer inte att avgöra nu om de distinguerade segmenten ska vara fonem (ljudekvivalenter), stavelser eller kanske allofoner.

Processen för automatisk igenkänning hänvisar alltid till vissa egenskaper hos objekt. Hundratals uppsättningar av olika parametrar har testats för talsignalen uppdelad i igenkända ramar och ha utvalda funktionervarvid dessa ramar presenteras i igenkänningsprocessen, kan vi utföra (för varje ram separat) klassificering, dvs. tilldela en identifierare till ramen, som kommer att representera den i framtiden.

Nästa steg sammansättning av ramar till separata ord - oftast utifrån den sk. modell av implicita Markov-modeller (HMM-). Sedan kommer montaget av ord fullständiga meningar.

Vi kan nu återgå till Alexa-systemet för ett ögonblick. Hans exempel visar en flerstegsprocess av maskinell "förståelse" av en person - mer exakt: ett kommando som han gett eller en fråga som ställs.

Att förstå ord, förstå mening och förstå användarens avsikt är helt olika saker.

Därför är nästa steg arbetet med NLP-modulen (), vars uppgift är erkännande av användarens avsikt, dvs. innebörden av kommandot/frågan i sammanhanget där det uttalades. Om avsikten identifieras, då tilldelning av så kallade färdigheter och förmågor, det vill säga den specifika funktionen som stöds av den smarta assistenten. Vid en fråga om vädret anropas väderdatakällor, som återstår att bearbeta till tal (TTS - mekanism). Som ett resultat hör användaren svaret på frågan.

Röst? Grafisk konst? Eller kanske båda?

De flesta kända moderna interaktionssystem är baserade på en mellanhand som kallas grafiskt användargränssnitt (grafiskt gränssnitt). Tyvärr är GUI inte det mest självklara sättet att interagera med en digital produkt. Detta kräver att användarna först lär sig hur man använder gränssnittet och kommer ihåg denna information vid varje efterföljande interaktion. I många situationer är röst mycket bekvämare, eftersom du kan interagera med VUI genom att bara prata med enheten. Ett gränssnitt som inte tvingar användare att memorera och memorera vissa kommandon eller interaktionsmetoder orsakar färre problem.

Utbyggnaden av VUI innebär naturligtvis inte att man överger mer traditionella gränssnitt – snarare kommer hybridgränssnitt att finnas tillgängliga som kombinerar flera sätt att interagera.

Röstgränssnittet lämpar sig inte för alla uppgifter i mobilsammanhang. Med det kommer vi att ringa en vän som kör bil och till och med skicka honom ett SMS, men det kan vara för svårt att kontrollera de senaste överföringarna - på grund av mängden information som överförs till systemet () och genereras av systemet (systemet). Som Rachel Hinman föreslår i sin bok Mobile Frontier, blir användningen av VUI mest effektiv när man utför uppgifter där mängden in- och utdata är liten.

En smartphone ansluten till Internet är bekväm men också obekväm (9). Varje gång en användare vill köpa något eller använda en ny tjänst måste de ladda ner en annan app och skapa ett nytt konto. Ett fält för användning och utveckling av röstgränssnitt har skapats här. Istället för att tvinga användare att installera många olika appar eller skapa separata konton för varje tjänst, säger experter att VUI kommer att flytta bördan av dessa besvärliga uppgifter till en AI-driven röstassistent. Det kommer att vara bekvämt för honom att utföra ansträngande aktiviteter. Vi kommer bara att ge honom order.

9. Röstgränssnitt via smart telefon

Idag är mer än bara en telefon och en dator anslutna till internet. Smarta termostater, lampor, vattenkokare och många andra IoT-integrerade enheter är också anslutna till nätverket (10). Det finns alltså trådlösa enheter runt omkring oss som fyller våra liv, men alla passar inte naturligt in i det grafiska användargränssnittet. Att använda VUI hjälper dig att enkelt integrera dem i vår miljö.

10. Röstgränssnitt med Internet of Things

Att skapa ett röstanvändargränssnitt kommer snart att bli en viktig designers färdighet. Detta är ett verkligt problem - behovet av att implementera röstsystem kommer att uppmuntra dig att fokusera mer på proaktiv design, det vill säga att försöka förstå användarens initiala avsikter, förutse deras behov och förväntningar i varje skede av samtalet.

Röst är ett effektivt sätt att mata in data – det tillåter användare att snabbt utfärda kommandon till systemet på sina egna villkor. Å andra sidan ger skärmen ett effektivt sätt att visa information: den tillåter system att visa en stor mängd information samtidigt, vilket minskar belastningen på användarnas minne. Det är logiskt att kombinera dem till ett system låter uppmuntrande.

Smarta högtalare som Amazon Echo och Google Home erbjuder inte en visuell skärm alls. De förbättrar avsevärt noggrannheten för röstigenkänning på måttliga avstånd och tillåter handsfree-drift, vilket i sin tur ökar deras flexibilitet och effektivitet - de är önskvärda även för användare som redan har smartphones med röststyrning. Men bristen på en skärm är en enorm begränsning.

Endast pip kan användas för att informera användarna om möjliga kommandon, och det blir tråkigt att läsa utmatningen med undantag för de mest grundläggande uppgifterna. Att ställa in en timer med ett röstkommando medan du lagar mat är bra, men att få dig att fråga hur mycket tid som är kvar är inte nödvändigt. Att få en vanlig väderprognos blir ett minnestest för användaren, som måste lyssna och ta till sig en rad fakta hela veckan, snarare än att plocka upp dem från skärmen med en blick.

Det har formgivarna redan gjort hybridlösning, Echo Show (11), som lade till en bildskärm till den grundläggande Echo smarta högtalaren. Detta utökar utrustningens funktionalitet avsevärt. Echo Show är dock fortfarande mycket mindre kapabel att utföra de grundläggande funktionerna som länge har varit tillgängliga på smartphones och surfplattor. Den kan till exempel inte (ännu) surfa på webben, visa recensioner eller visa innehållet i en Amazon-varukorg.

En visuell visning är i sig ett mer effektivt sätt att ge människor en mängd information än bara ljud. Att designa med röstprioritet kan förbättra röstinteraktionen avsevärt, men i det långa loppet kommer att godtyckligt inte använda den visuella menyn för interaktionens skull vara som att slåss med en hand bunden bakom ryggen. På grund av den hotande komplexiteten hos intelligenta röst- och displaygränssnitt från slut till ände bör utvecklare allvarligt överväga en hybrid strategi för gränssnitt.

Genom att öka effektiviteten och hastigheten för system för talgenerering och igenkänning har det blivit möjligt att använda dem i sådana applikationer och områden som till exempel:

• militär (röstkommandon i flygplan eller helikoptrar, till exempel F16 VISTA),

• automatisk texttranskription (tal till text),

• interaktiva informationssystem (Prime Speech, röstportaler),

• mobila enheter (telefoner, smartphones, surfplattor),

• robotik (Cleverbot - ASR-system kombinerat med artificiell intelligens),

• bilar (hands-free kontroll av bilkomponenter, som Blue & Me),

• hemapplikationer (smarta hemsystem).

Se upp för säkerheten!

Fordon, hushållsapparater, värme/kyla och säkerhetssystem för hemmet och en mängd hushållsapparater börjar använda röstgränssnitt, ofta AI-baserade. I detta skede skickas data som erhållits från miljontals konversationer med maskiner till datormoln. Det är tydligt att marknadsförare är intresserade av dem. Och inte bara dem.

En färsk rapport från Symantecs säkerhetsexperter rekommenderar att röstkommandoanvändare inte kontrollerar säkerhetsfunktioner som dörrlås, än mindre hemsäkerhetssystem. Detsamma gäller för lagring av lösenord eller konfidentiell information. Säkerheten för artificiell intelligens och smarta produkter har ännu inte studerats tillräckligt.

När enheter i hela hemmet lyssnar på varje ord blir risken för hackning och missbruk av systemet en oerhört viktig fråga. Om en angripare får tillgång till det lokala nätverket eller dess associerade e-postadresser kan inställningarna för smarta enheter ändras eller återställas till fabriksinställningarna, vilket resulterar i att värdefull information går förlorad och användarhistoriken raderas.

Säkerhetspersonal fruktar med andra ord att röst- och VUI-driven artificiell intelligens ännu inte är tillräckligt smart för att skydda oss från potentiella hot och hålla käften när en främling ber om något.