maandag, 20. december 2010 - 14:13 Update: 08-07-2014 0:31

Computer leert parafrases herkennen

Tilburg

Een dataset van ruim twee miljoen woorden maakt het voor computers mogelijk om te herkennen wanneer twee sterk verschillende zinnen toch dezelfde betekenis hebben. Dit meldt de Universiteit van Tilburg maandag.

Deze dataset werd gemaakt door TICC (het instituut voor Cognitie en Communicatie van Tilburg University) en wordt beschikbaar gesteld door de TST Centrale van de Nederlandse Taalunie.

Deze dataset en tools (eerste in zijn soort) vormen een stap vooruit naar slimme zoekmachines en automatische taalverwerking, in een tijd waarin het snel zoeken en rubriceren van informatie — denk aan Google of Wikileaks — van essentieel belang zijn. Ze zijn ontwikkeld in het DAESO project (Detecting And Exploiting Semantic Overlap).

Het detecteren van parafrases (en andere vormen van betekenisoverlap) is voor het opsporen, rubriceren en verwerken van informatie van grote waarde. Vergelijk bijvoorbeeld de volgende twee openingszinnen van een nieuwsbericht uit twee verschillende kranten:

De 44-jarige Steve Irwin — bekend door zijn tv-programma’s over dieren — stierf maandagmiddag (plaatselijke tijd) nadat hij tijdens het duiken voor de Australische noordoostkust bij Port Douglas in zijn borstkas wordt gestoken door een giftige pijlstaartrog.

Steve Irwin, de Australische televisiepresentator die bekend is als The Crocodile Hunter, is maandag overleden nadat hij tijdens een duikexpeditie was gestoken door een pijlstaartrog.

De twee zinnen beschrijven dezelfde gebeurtenis, maar doen dat met behulp van bijna volledig verschillende bewoordingen. Een computer die alleen naar de woorden kijkt zal deze zinnen dan ook niet snel als parafrases herkennen. Wie op het internet zou zoeken naar informatie over ‘de dood van de Crocodile Hunter’, krijgt daarom alleen het ene krantenbericht — terwijl een zoekmachine die de parafrases herkent, beide artikelen kan aanbieden.

Toepassingen
En er zijn nog meer mogelijkheden. Emiel Krahmer, hoogleraar bij TiCC legt uit: ‘Ook voor een systeem dat meerdere teksten over het zelfde onderwerp kan samenvatten, is het nuttig om te weten dat verschillende zinnen hetzelfde kunnen uitdrukken.

Helemaal ideaal is de mogelijkheid van zinsfusie: een tool die binnen DAESO ontwikkeld is. Deze kan niet alleen vaststellen dat twee zinnen grofweg dezelfde informatie bevatten, maar is ook in staat om de inhoud van de verschillende zinnen samen te voegen tot één nieuwe zin. Zo kan je razendsnel de relevante informatie halen uit grote hoeveelheden tekst.’

Krahmer ziet toepassingsmogelijkheden in de journalistiek, ‘maar denk ook aan het opsporen van plagiaat. Vaak wordt bij plagiaat niet zo maar een tekst gekopieerd, maar enigszins geparafraseerd. Met deze dataset zou een zoeksysteem dat kunnen detecteren.’
Categorie:
Tag(s):