In de afgelopen weken is gebleken dat de medewerkers van grote techbedrijven toch wel degelijk naar privégesprekken van hun gebruikers luisteren om hun AI-toepassingen te testen. Het laatste voorbeeld in dit rijtje techbedrijven is Facebook.
Bloomberg onthulde dat het bedrijf honderden werknemers in dienst heeft genomen om audiogesprekken te transcriberen. Deze gesprekken vonden plaats via Facebook Messenger. Facebook gaf aan dat mensen zelf akkoord hadden gegeven voor de opname van deze gesprekken. Daarbij is het echter nog steeds de vraag of de gebruikers wel echt in de gaten hadden waar ze voor tekenden: voor automatische verwerking door een AI-systeem óf voor transcriptie van hun gesprekken door echte mensen?
Inmiddels is Facebook gestopt met het transcriberen van gesprekken. Datzelfde geldt voor bijvoorbeeld Amazon, Google en Apple. De vraag is echter of deze praktijk überhaupt nodig was. Is het gebruik van privégesprekken de beste manier om AI-systemen te trainen?
Tekst gaat verder onder de afbeelding.
Op dit moment moeten we AI-systemen nog vertellen of ze het juiste antwoord hebben gegeven. In het geval van deze spraaksystemen komt dat neer op de vraag of het systeem de gebruiker goed heeft verstaan.
Stel je een peuter voor, waarvan het eerste woord “kat” is. De peuter leert wat een kat is (en wat geen kat is) door te wijzen op voorwerpen en het woord “kat” te zeggen. De ouder zegt “Ja, dat is een kat” of “Nee, dat is geen kat”. Naarmate de peuter op objecten wijst, wordt hij zich meer bewust van de eigenschappen die alle katten bezitten.
Bovenstaande is een versimpelde weergave van hoe deze AI-systemen getraind worden. Daarbij wordt de training alsmaar herhaald totdat de output een acceptabel niveau van nauwkeurigheid heeft bereikt. Het is natuurlijk super handig om daar deze privégesprekken voor te gebruiken, zo is de hoeveelheid data enorm en is het transcriberen ervan goedkoop.
Er zijn echter ook andere manieren om AI-systemen te trainen, zonder dat daarbij inbreuk gemaakt wordt op de privacy van (onwetende?) gebruikers. De data zou bijvoorbeeld geanonimiseerd kunnen worden, onder meer door de stem drastisch te veranderen. Wij zijn in ieder geval benieuwd hoe deze techbedrijven met deze (en andere) privacyvraagstukken omgaan!
Meer lezen over dit onderwerp?
Misschien vind je deze artikelen ook interessant:
Machine learning, neurale netwerken en deep learning simpel uitgelegd
De relatie tussen privacy en domotica in de ouderenzorg