digiTAAL

      Nieuwe perspectieven voor (toekomstige) onderzoekers

      19 december 2011, Leuven



      digiTAAL
      19 december 2011, Leuven, 11-16u,
      MSI-gebouw (Erasmusplein 2), zaal 02.28
      10.30-11.00 Registratie en koffie (inkomhal Erasmusgebouw, Blijde Inkomststraat 21)

      Op 19 december 2011 organiseert CLARIN-Vlaanderen een colloquium waarop binnen- en buitenlandse onderzoekers (uit Vlaanderen, Nederland, Frankrijk, Ierland) een aantal inspirerende voorbeelden tonen van wat er nu reeds zoal mogelijk is gebruikmakend van digitale hulpmiddelen.
      Het gaat daarbij vooral ook om hulpmiddelen die ook door niet-specialisten gemakkelijk kunnen worden gebruikt. Hulpmiddelen ook die, naar onze mening, in de toekomst niet meer weg te denken zijn.
      Daarnaast zullen in een aparte presentatie een hele reeks mogelijkheden kort worden geschetst, van mogelijkheden om bv (geschreven of gesproken) archieven snel te doorzoeken tot (automatische) visualisatie van onderzoeksresultaten (kaarten, tijdsassen, maar ook diagrammen allerhande).
      En dat alles met betrekking tot
        • 'dode talen' zoals het Latijn of het Middelnederlands, maar ook voor bv dialecten,
        • voor zeer informeel taalgebruik (conversaties, maar ook bv sms-berichten) tot zeer formele wetsteksten,
        • voor één of meerdere talen,
        • voor teksten die al dan niet op hetzelfde onderwerp betrekking hebben (desgewenst automatisch vast te stellen) of eventueel elkaars vertalingen zijn,
        • voor zowel onderzoek waarbij de taal centraal staat (bv taalkunde) als onderzoek waarbij de taal een hulpmiddel is (geschiedenis, archeologie, psychologie),
        • voor gesproken en geschreven taal,
        • ...

      De verschillende presentaties betreffen zowel gesproken als geschreven taal, hedendaagse als oudere vormen van taalgebruik.

      De toegang is gratis, stuur liefst wel een mail naar Ineke Schuurman met het oog op ondermeer badges en bonnen voor de koffie, thee en lunch.

      Programma

       10.30-11.00    Registration, koffie en/of thee  
       11.00-11.05    Welcome Ineke Schuurman (coordinator CLARIN-Vlaanderen) 
       11.05-11.30   Nederbooms - an example-based query system  
          Liesbeth Augustinus, Vincent Vandeghinste & Frank Van Eynde (K.U.Leuven) 
       11.30-11.55   A syntactic translation memory  
          Vincent Vandeghinste (K.U.Leuven) 
       11.55-12.20   The AnnotationTool, searching and annotating Oral History Data  
          Eric Sanders (Radboud Universiteit, Nijmegen) 
       12.20-12.45   An overview of a whole series of exciting examples for the humanities  
          Ineke Schuurman (coordinator CLARIN-Vlaanderen)  
       12.45-13.45   Lunch  
       13.45-14.10   Who is Patrick? Answers from the Saint Patrick's Confessio HyperStack (prelim.title)  
          Roman Bleier (Royal Irish Academy, Dublin)  
       14.10-14.35   CULTURA: Dynamic Adaptivity and Social Analysis in a Digital Humanities context  
          Owen Conlan (Trinity College Dublin)  
       14.35-15.00   Textual Alignment for the Digital Humanities - Principles, Problems and Potential Applications  
          Jean-Gabriel Ganascia (Université Pierre et Marie Curie, Paris)  
       15.00-15.25   Words in the big tent: text based digital humanities  
          Edward Vanhoutte (Centrum voor Teksteditie en Bronnenstudie - KANTL)  
       15.25-15.40   CLARIN, what to expect in the (near) future?  
          Ineke Schuurman (coordinator CLARIN-Vlaanderen)  
       15.40-16.00   Discussion  
       16.00-...   Further discussion in a nearby pub?  

      NB: Registratie en lunch vinden plaats in de hal van het naastgelegen Erasmushuis (hoofdgebouw faculteit Letteren), Blijde Inkomststraat 21.




      GALATEA

      Oud(er) Nederlands en nieuwe, digitale onderzoeksmogelijkheden


      GALATEA II
      February 18th, 2011, Antwerp, 10.15-17.30

      Location: Prentenkabinet
      Hof van Liere
      Prinstraat 13, 2000 Antwerp
      (University of Antwerp, City Campus)

      Cf. number 7 on the map. Direction signs will be provided.

      In this second, more technically oriented GALATEA workshop we are interested in improving access to historical Dutch documents using Natural Language Processing. We assume that these texts are already available in a machine readable format.


      The GALATEA workshops are devoted to the use of digital means when researching old(er) Dutch documents. Whereas the DigiHist workshops are devoted to the issue of making manuscripts available in a machine readable way, the GALATEA workshops presuppose the availability of texts in such a format. But whereas for modern Dutch many tools and resources (like taggers, parsers, (balanced) corpora) are available, these are mostly lacking for old(er) Dutch. What can we, the Flemish and Dutch NLP community, do to remedy this situation? Which tools and resources are available or rather easily to construct and which ones are feasible but require some more efforts? And which ones would require serious joined research efforts over a longer period of time?

      In the first GALATEA workshop (cf. below) the intended users made their wishes and needs known. In short:

      - accessability DBNL (best option now: Google)
      - balanced reference corpus (1250-2000)
      - corpora/tools for 15th and 16th century (heavily underrepresented at the moment)
      - homogeneous tools for (possibly) heterogeneous corpora
      - tools should be (very) easy to use
      - tools to draw reliable maps
      - annotated corpora: PoS, syntactic information


      What can we offer them?


      Programme

       10.15-10.45    Registration, warm drinks available 
       10.45-10.50    Welcome by Walter Daelemans (Antwerp) 
       10.50-11.00   Introduction by John Nerbonne (chair, Groningen) 
       11.00-11.20   Ineke Schuurman (Leuven), Working with older texts: wishes, needs, requests of researchers in the human and social sciences
       11.20-11.50    Richard Beaufort (Louvain-La-Neuve), A hybrid statistical/linguistic approach of spelling variations. From text messages to dead languages.
      Referee: John Nerbonne
       11.50-12.10    Guy de Pauw (Antwerp), A Lemmatized Concordance of the Works of Jan van Ruusbroec.
      Referee: Ineke Schuurman
       12.10-12.30    Sander Wubben (Tilburg), Overlap-Based Phrase Alignment for Language Transformation.
      Referee: Ineke Schuurman
       12.30-13.15    Sandwich lunch
       13.15-14.30    Keynote by Christoph Ringlstetter (Munich), Improving access to historical corpora.
      Referee: John Nerbonne
       14.30-15.00    Hans van Halteren (Nijmegen), Adelheid: Tagging and Lemmatizing Historical Dutch Texts through the Clarin Infrastructure.
      Referee: Walter Daelemans
       15.00-15.30    Coffee break
       15.30-16.00    Jesse de Does & Katrien Depuydt (Leyden), Lexicon building and deployment in IMPACT.
      Referee: Frank Van Eynde (Leuven)
       16.00-16.30    Mike Kestemont (Antwerp), Building a Lemmatizer for the Corpus-Gysseling.
      Referee: Hans Van Halteren
       16.30-17.30    Final discussion chaired by John Nerbonne
       17.30    Closing reception


      Organisation:
      Walter Daelemans and Mike Kestemont (U.Antwerpen)
      Ineke Schuurman (K.U.Leuven, coördinator CLARIN-Vlaanderen)


      **********************************************************************************

      Op 14 december 2010 organiseert CLARIN-Vlaanderen in Leuven de eerste van een drietal workshops over het gebruik van digitale hulpmiddelen bij onderzoek gebruikmakend van Nederlandse teksten. De nadruk ligt op het onderzoek in/van oude(re) teksten, omdat voor hedendaags Nederlands al meer mogelijk is.
      We definiëren oud(er) Nederlands erg ruim: van Middelnederlands tot het Nederlands van het begin van de 20e eeuw! Een en ander geschiedt in het kader van het CLARIN-project dat beoogt een digitale infrastructuur beschikbaar te maken voor onderzoekers in de humane en sociale wetenschappen: taalkundigen, letterkundigen, historici, sociologen, ...
      Natuurlijk zijn ook onderzoekers die zich bezighouden met hedendaags Nederlands van harte welkom om mee te discussiëren en ook hun noden en behoeften te formuleren!



      ***

      GALATEA I
      14 december, Leuven, 10-16 uur

      Justus Lipsiuszaal 08.16
      Faculteit Letteren (Erasmushuis)
      Blijde Inkomststraat 21, Leuven

      Deze eerste workshop is bedoeld om te achterhalen welke noden en wensen de betrokken onderzoekers hebben. Wat zou men in de toekomst graag willen kunnen doen? Wat is er bijvoorbeeld voor andere talen al wel mogelijk en nog niet voor het Nederlands? In de presentaties staan de mogelijkheden die het gebruik van digitale hulpmiddelen bieden centraal.

      Deelname is gratis. Wel vragen we u zich te registreren om het aantal deelnemers in te kunnen schatten (organisatie lunch etc).
      Registratie (naam en e-mailadres) is mogelijk tot en met 12 december.


      Programma

       09.40-10.00    Ontvangst, koffie en thee 
       10.00-10.15    Introductie (Ineke Schuurman) 
       10.15-10.45   Jan Dumolyn & Jonas Braekevelt (U.Gent), Kwantitatieve en kwalitatieve discoursanalyse van de verordeningen van Filips de Goede aan de hand van Hyperbase (E. Brunet).
       10.45-11.15    Joop van der Horst & Freek Van de Velde (K.U.Leuven), Zoeken in taal.
       11.15-11.30    Koffie- en theepauze
       11.30-12.00    Thomas Crombez (U.Antwerpen), Weg van de searchbox. Nut en nadeel van het Google-paradigma voor historisch onderzoek aan de hand van digitale corpora. (slides)
       12.00-12.30    Huib Zuidervaart (KNAW), 'Circulation of Knowledge and Learned Practices': een tussenstand. (slides)
       12.30-13.00    Evie Coussé (U.Gent & U.Göteborg), Methodologische uitdagingen voor een longitudinaal corpus 'Historisch Nederlands'. (slides)
       13.00-14.00    lunch
       14.00-14.15    Korte presentatie nog niet aan bod gekomen mogelijkheden (Ineke Schuurman)
       14.15-15.00    Noden en verlangens. Discussie in kleinere groepen
       15.00-15.15    Koffie- en theepauze
       15.15-15.50    Plenaire discussie
       15.50-16.00    Afsluiting en vooruitblik naar GALATEA II en III



      deelnemers


      Organisatie:
      Walter Daelemans en Mike Kestemont (U.Antwerpen)
      Ineke Schuurman (K.U.Leuven, coördinator CLARIN-Vlaanderen)



      ***

      GALATEA II
      18 februari 2011, Antwerpen


      Deze besloten workshop is bedoeld voor Vlaamse en Nederlandse taaltechnologen, die dan ondermeer zullen kijken wat er in de nabije toekomst mogelijk is, en wat eventuele verdere stappen kunnen zijn. Zie de aankondiging hierboven.


      ***




      DigiHist
      (1 juli 2010, Leuven)


      Op 1 jul1 2010 organiseert CLARIN-Vlaanderen organiseert de studiedag "DigiHist"
      OCR werkt niet goed wanneer oude teksten machine leesbaar gemaakt moeten worden. Hierbij valt te denken aan oude handschriften en incunabelen, zoals bv de documenten in de Leuvense Schepenbank (Itinera Nova, Leuven, ruim 950.000 pagina's, periode 1362 - 1723) of in het Geleerdenbrievenproject (Huygensinstituut, Amsterdam, 20.000 brieven van 17e eeuwse wetenschappers).

      Zijn er alternatieven voor het volledig manueel laten overtikken? Heeft de moderne taal- en spraaktechnologie hier iets te bieden? En wanneer er toch met OCR gewerkt wordt, hoe kunnen deze technieken optimaal benut worden voor correctiedoeleinden?

      lokatie: MSI-gebouw (Erasmusplein 2) Leuven, zaal 01.23
      tijd: 11.00 - 16.00 uur

      agenda
      presentaties:
      • Welkom, introductie CLARIN en rationale achter DigiHist (Ineke Schuurman)
      • Schepenbank Leuven (Marika Ceunen)
      • Geleerdenbrieven-project (Ineke Schuurman, ism Jan Odijk) plus voorbeeld uit dat project: Brief van Hugo De Groot
      • het IMPACT-project (Paul Doorenbosch)
      • ervaringen met Google (Inge Van Nieuwerburgh)
      • MONK en Scratch (Lambert Schomaker)
      • Oude teksten en spraakherkenning (Patrick Wambacq), een tweetal spraakopnames (plus voorgelezen teksten en reeds voorhanden transcripties (volledig met de hand gemaakt door vrijwilligers), uit de Schepenbank Leuven: opname 1 en tekst 1, opname 2 en tekst 2), plus een weergave van delen van de automatisch geproduceerde transcriptie van het tweede fragment (met een niet op middeleeuwse teksten getrainde spraakherkenner)
      • TICCLops en een Paleographic Workbench (Martin Reynaert)


      deelnemers