Car-tech

Talekjenningssystemer må bli smartere, professor sier

Denne lille endringen i måten du studerer på vil forbedre hukommelsen din med 300%

Denne lille endringen i måten du studerer på vil forbedre hukommelsen din med 300%
Anonim

De som loathe snakker på telefonen til automatiserte talegjenkjenningssystemer kan ta trøst i det faktum at forskere arbeider for å gjøre slike systemer mer livlige og mindre irriterende å bruke.

"Fra forbrukererfaring finner folk disse systemene veldig frustrerende," sa James Allen, som er formann for datavitenskap ved University of Rochester, snakket før SpeechTEK-konferansen 2010, holdt i New York denne uken.

De fleste datastyrt talegjenkjenningssystemer kan forstå hva et menneske sier opp til 98 prosent av tiden, og likevel er det fortsatt folk som kjører ved hjelp av automatiserte telefonhjelpstjenester. Nøkkelen til å gjøre disse systemene mindre frustrerende å bruke, ville være å gi dem en dypere forståelse av språk og gjøre dem mer interaktive, sier Allen.

[Videre lesing: Din nye PC trenger disse 15 gratis, gode programmene]

I dag tilbyr kundeserviceavdelingene i de fleste store organisasjoner automatiserte telefonbaserte hjelpesystemer. En bruker ringer hjelpenummeret og en kunstig stemme ber den som ringer en rekke spørsmål. De fleste av disse systemene er basert på rammer som i utgangspunktet er store beslutningstrender. Med slike systemer, "du ikke finner ut hva personen vil, følger du et skript," sa han.

Systemene er faktisk en sammensatt av en rekke forskjellige teknologier. Den ene er talegjenkjenning, eller muligheten for at en datamaskin forstår eller vellykket oversetter til tekst, hva høyttalerne sier.

Den andre teknologien, NLP (Natural Language Processing), forsøker å enten konvertere høyttalerens melding til en kommando som datamaskinen kan utføre, eller som kan oppsummeres for en menneskelig operatør.

Det har vært gjort store fremskritt i både talegjenkjennelse og NLP de siste tiårene, men de har tilsynelatende brakt mest frustrasjon til brukerne. "Jeg ringer bare banken når jeg har et problem og kjemper for disse systemene. [Jeg spør] hva jeg kan svare for å komme seg til en person så fort som mulig," sa Allen.

Allens akademiske forskningsarbeid har vært ved å finne måter som "vi kan snakke med en maskin på samme måte som vi kan snakke med en person," sa han.

Samtaler mellom to personer kan være presise på måter som har vanskeligheter med å matche. Allen pekte på noe tidlig arbeid han gjorde som en kandidatstudent, der han registrerte samtaler på en jernbanestasjonens informasjonsskranke. I en samhandling går en passasjer opp til båsen og sier "8:50 til Windsor", og assistenten svarer "Gate 10, 20 minutter for sent." Mens ledsageren visste nøyaktig hvilken informasjon forespørselen søkte, ville datastyrte systemer finne passasjerens første uttalelse befultling.

Måten Allen ser det, mangler to elementer fra de moderne systemene: Evnen til å analysere hva høyttalerne sier og evne til å snakke med høyttaleren for å lære mer om hva høyttaleren har tenkt å si.

"Mange NLP-hyller har en tendens til å være grunne. Vi har ingen teknologi som gir deg mening om setningene," han sa. Statistisk bearbeidingsverktøy og orddefinisjonstjeneste som WordNet kan bidra til å definere et ord, men også et ords forhold, så et system vil vite at for eksempel et "datterselskap" er en del av et "selskap".

Mer toveiskommunikasjon mellom brukerne og datamaskinene er også nødvendig. Når de snakker om deres behov, kan folk gi informasjon uten spesiell rekkefølge. Det bør være opp til datamaskinen å sammenføye denne informasjonen og ikke belaste brukeren med spørsmål hvis svar allerede er gitt.

"Dette er fremtiden, dette er egentlig hva du vil at systemer skal gjøre, og kan vi bygge dialog Systemer som kan støtte denne kompleksiteten, sier han.

For å illustrere denne ideen, utformet Allen og et forskerdag et program kalt Cardiac som kunne etterligne spørsmålene en sykepleier ville spørre til en pasient med hjertesykdom. Programmet ble opprettet med finansiering fra U.S. National Institutes of Health. Med dette systemet, når en bruker leverer informasjon, ville systemet ikke be om det igjen, sa Allen. Systemet vil begrunne om hvilket materiale som allerede var gitt, og det som fortsatt var nødvendig.

Et annet program designet av Allen og hans team, kalt Plough, kan lære å utføre vanlige oppgaver på en datamaskin. "Dette er et system som lar deg i hovedsak bruke dialog for å trene systemet ditt hvordan du gjør ting for deg," sa han.

Som et eksempel demonstrerte Allen programmet å lære å finne nærliggende restauranter ved hjelp av en nettleser. Brukeren vil åpne en nettleser, navigere til et restaurant locator nettsted, skrive inn typen restaurant søkt og stedet, og deretter kutte og lime inn resultatene i en tom side. Brukeren beskrev hvert trinn som det ble utført.

I prosessen registrerte Plough hvert trinn, og hørbart svarer når trinnet forstås. Senere, når brukeren ønsker å se opp en annen restaurant, vil programmet gå gjennom alle de samme bevegelsene, og produsere en annen liste over restauranter automatisk. US Defense Advanced Research Projects Agency finansierte utviklingen av dette programmet.

Flere data er nøkkelen for mer menneskelige språkbehandlingssystemer, var Microsoft-sjefforsker for tal Larry Heck, i en annen tale på konferansen. "Hvis du ikke har dataene, spiller det ingen rolle hvor sofistikert algoritmen dine er," sa han.

Ett sted å finne flere data ville være i søkemotorforespørsler, foreslo han. Søkemotortjenester får massive antall søk, som alle blir koblet til svar. "Jeg ser på søk som en nært fetter til språkbehandlingsteknologi," sa Heck.

I dag er folk trent til å strukturere sine spørsmål som et sett med søkeord. I stedet, hvis brukerne skulle skrive inn fullstendige setninger som beskriver hva de trenger, kan det resulterende datasettet gå langt for å hjelpe systemer bedre å forstå hva folk ser etter.

Heck forutslo at flere personer bruker taleaktiverte søketjenester fra Microsoft og Google, vil de bli vant til å strukturere sine spørsmål som fullstendige setninger, som over tid kan hjelpe NLP-systemer bedre å forutse brukernes behov.

Joab Jackson dekker enterprise software og generell teknologi breaking news for IDG News tjenesten. Følg Joab på Twitter på @Joab_Jackson. Joabs e-postadresse er [email protected]