De mogelijkheid om met (mobiele) devices te communiceren via digitale assistenten en spraakbediening (‘Hey Google’) is steeds prominenter in ons dagelijks leven aanwezig. Aan de basis hiervan staan technologieën als Natural Language Processing en Automated Speech Recognition. Wat zijn dit en hoe pas je dit in je organisatie toe?
Het gebruik van voice technology
Onderzoek toont aan dat 54% van de klanten zegt dat ze een spraakassistent als Siri of Alexa gebruiken om te communiceren met een bedrijf. Deze percentages laten zien dat het steeds belangrijker wordt om aandacht aan deze ontwikkeling te geven. Maar het bouwen van apps met spraaktechnologie vraagt nieuwe IT-strategieën en -vaardigheden.
Niet verwonderlijk: in tegenstelling tot programmeertalen is spreektaal op meerdere manieren te interpreteren. Intonatie, zinsopbouw en klank variëren afhankelijk van de betekenis, terwijl een programmeertaal juist zo duidelijk en expliciet mogelijk geconstrueerd moet zijn.
Bedenk bij het ontwikkelen van een voice applicatie wat de meerwaarde is van spraakbediening. Is bijvoorbeeld een ‘speech to text’ functionaliteit belangrijk voor verkopers of de customer experience?
Welke trends zijn bepalend voor de toekomst van de digitale wereld?
Blijf op de hoogte van de nieuwste digitale trends en toonaangevende statistieken en inzichten.
Om spraaktechnologie te implementeren wordt gebruik gemaakt van meerdere platformen waarmee het mogelijk is om natuurlijke taal goed te interpreteren en te verwerken tot voor de computer bruikbare data. Data die geïnterpreteerd wordt met behulp van kunstmatige intelligentie (AI) en waarmee zelfs voorspellingen en aanbevelingen gedaan kunnen worden. We brengen een drietal technologieën in kaart:
- Automated Speech Recognition
- Natural Language Processing
- Natural Language Understanding
1. Wat is Automated Speech Recognition (ASR)?
Automatische spraakherkenning (ASR) is het proces waarbij een computer spraakcommando’s (de stem) herkent en omzet in een geschreven (‘speech to text’) of voor een computer begrijpelijke taal. Het genereert een transcriptie van wat er is gezegd en classificeert de betekenis. Voor computerprogramma’s die een gesproken interface gebruiken (in plaats van een geschreven interface), is spraakherkenning een noodzakelijke eerste stap.
Met Artificial Intelligence wordt ASR steeds slimmer en worden ook omgevingsgeluiden meegenomen. Is het lawaaiig of wordt geluid vervormd? Is er achtergrondgeluid?
2. Wat is Natural Language Processing (NLP)?
Sinds de opkomst van mobiele apparaten is de belangstelling voor Natural Language Processing (NLP) explosief toegenomen. In tegenstelling tot het volledige toetsenbord van een computer, hebben mobiele apparaten meestal zeer kleine toetsenborden, die moeilijk te gebruiken zijn om lange reeksen tekst in te voeren. Door met een mobiel apparaat via spraak te communiceren wordt de mogelijkheden van dat apparaat enorm uitgebreid.
Natural Language Processing brengt ideeën uit de computerwetenschap, taalkunde en kunstmatige intelligentie samen. Het zijn de systemen waardoor chatbots interacties met klanten kunnen afhandelen in hun eigen taal. Die (menselijke) taal moet worden verwerkt, en geïnterpreteerd, waarna een passend antwoord op de vraag wordt gegeven. Het interpreteren, is het gedeelte dat door Natural Language Understanding wordt gedaan.
Kunstmatige intelligentie speelt een cruciale rol in NLP, omdat taal zo specifiek is, afhankelijk van hoe mensen denken en zich uitdrukken. AI helpt dit te verwerken tot input die het systeem kan herkennen. Door bij Natural Language Processing machine learning toe te passen, worden de chatbots steeds slimmer en kunnen ze steeds beter patronen en informatie uit gesprekken herkennen
Wat kan de natuurlijke taalverwerking doen?
In veel tools en technologieën die we dagelijks gebruiken zit al Natural Language Processing verwerkt. Denk bijvoorbeeld aan spellingcheckers of autocomplete functies. Maar ook voor automatisch adressen en andere bedrijfsinformatie uit websites halen of automatische vertaling (zoals Google Translate). Voor chatbots met natuurlijke spraak en complexe virtuele assistenten (zoals Siri, Google Assistant en Amazon’s Alexa) worden zeer complexe vormen van NLP gebruikt.
Natural Language Processing wordt met Artificial Intelligence heel klantspecifiek gemaakt. Je eigen klantspecifieke data, voorwaarden en terminologieën zorgen voor een op maat gemaakt NLP model dat je met AI nog verder kan trainen tot je eigen use case.
3. Wat is Natural Language Understanding?
Natural Language Understanding (NLU) is met kunstmatige intelligentie een belangrijk onderdeel voor NLP. Je kan zo ‘gewoon’ praten, en je voice assistent of chatbot begrijpt wat jij bedoelt. Natural Language Understanding zorgt dat computers commando’s begrijpen zonder de officiële syntaxis van computertalen en stelt computers in staat om terug te ‘praten’ met mensen in hun eigen taal. Door Artificial Intelligence leert het systeem verder te gaan dan het begrijpen van de woorden, maar ook de betekenis te interpreteren. NLU leert het natuurlijke taalgebruik van de klant te begrijpen, ondanks menselijke fouten zoals bijvoorbeeld een verkeerde uitspraak. Pas daarna kan met Natural Language Processing het juiste antwoord op de vraag worden gegeven. Zo heeft je klant het gevoel een ‘gewoon’ gesprek te kunnen voeren.
De belangrijkste reden voor het gebruik van NLU is het creëren van chat- en spraakgestuurde bots die effectief kunnen communiceren met het publiek. Bekende bedrijven die natuurlijk NLU gebruiken zijn Google’s Assistent, Apple met Siri of Amazon met Alexa.
Het gebruik van spraaktechnologieën en Einstein Voice
De vraag van klanten en het gemak wat je organisatie kan hebben door spraaktechnologie aan Salesforce toe te voegen zal duidelijk zijn. Maar hoe ga je dit doen?
Salesforce heeft Einstein Voice toegevoegd aan Einstein, het Artificial Intelligence platform. Zo is het gemakkelijk om aan de wens van je klanten en medewerkers tegemoet te komen om spraaktechnologie te kunnen bieden.
Hoe gaat dit in z’n werk? Een voorbeeld:
Met Einstein Voice Assistant kan je heel gemakkelijk een gesprek voeren over een update van Salesforce. In plaats van bijvoorbeeld vergaderingsnotities handmatig in te voeren, kan je je notities mondeling doorgeven via de mobiele app. Met je stem update je zo gegevens in Salesforce: “Hey Einstein, maak hier een aantekening van. De opportunity bij klant X is groter dan ik dacht. Ik moet hier volgende week een follow-up aan mijn manager Y over geven”.
Einstein voice technologie maakt gebruik van automatische spraakherkenning (ASR) om je spraakcommando te detecteren. Zodra het je stem herkent, zorgt het voor een transcriptie van wat je hebt gezegd. Daarna bepaalt het de bedoeling van je commentaar, bijvoorbeeld of je een vraag of een commando gaf.
De volgende stap is dat door middel van natuurlijke taal begrip (NLU) alle ongestructureerde data omgezet wordt in een gestructureerde vorm die de computer begrijpt en waar deze wat mee kan. In bovenstaand voorbeeld is dat dus:
“Hey Einstein, maak een aantekening (notitie). De opportunity (update een kans) bij klant X groter is dan ik dacht. Ik moet hier volgende week follow-up (een herinnering) aan mijn manager Y over geven.”
Dus wat zien we? Einstein zet de ongestructureerde gegevens van je aantekening automatisch om in gestructureerde data in Salesforce. Zo kan je dus gemakkelijk je opmerkingen invoeren, een taak aanmaken en een veld bijwerken over de betreffende opportunity.
Met Einstein Voice kun je technologieën als smart speakers combineren met het navigeren door dashboards in een mobiele applicatie. Met templates kun je dit uitrollen over meerdere kanalen en kun je steeds meer functies met je stem activeren. Dit geeft een productiviteitsstijging en het vergroot de customer engagement.