Weg van de searchbox: Nut en nadeel van het Google-paradigma voor historisch onderzoek aan de hand van digitale corpora
Thomas Crombez
Aan de hand van de ervaringen met twee online corpora van gedigitaliseerde theaterdocumenten -- resp. het Corpus Toneelkritiek Interbellum (1919-1939) en de SARMA-collectie Pieter T'Jonck Theater- en danskritiek (1982-2008) -- wordt in deze presentatie de vraag aangesneden welke interfaces voor dergelijke collecties de meest aantrekkelijke zijn.
Uitgangspunt is het 'Google-paradigma', namelijk de eenvoud van de Google-searchbox. Dit paradigma wordt kritisch benaderd door het te contrasteren met concurrerende modellen (semantisch web, mnemotechnische methode van de loci).
In een derde en afsluitende stap wordt getoond hoe taalkundige analyse de tools aanreikt waarmee interfaces voor online documentencollecties kunnen worden verrijkt, en de collecties zelf beter worden ontsloten. Als voorbeelden van deze analyse worden drie technieken gepresenteerd en met voorbeelden toegelicht: Named Entity Detection, tekstuele afstand, en Latent Semantic Analysis.