Dariah-SI

Konferenca Jezikovne tehnologije in digitalna humanistika

KONFERENCA JEZIKOVNE TEHNOLOGIJE IN DIGITALNA HUMANISTIKA

Filozofska fakulteta, Univerza v Ljubljani
29. 9.–1. 10. 2016

Prvo vabilo za prispevke

Ob jubilejni deseti konferenci Jezikovne tehnologije smo se odločili za programsko širitev na področje digitalne humanistike, ki je kot presek digitalnih tehnologij in humanistike aktualno raziskovalno področje, kjer se na eni strani digitalne tehnologije uporabljajo pri raziskavah v humanistiki za študij jezika, družbe in kulture, na drugi strani pa je humanistika tudi spodbudna za razvoj novih tehnoloških rešitev, kot npr. kažejo revija JDH, zveza ADHO s svojimi letnimi konferencami DH in mreža NeDiMAH.

V samem izhodišču je digitalna humanistika izrazito interdisciplinarno in kolaborativno raziskovalno delo, ki bistveno spreminja ustaljene humanistične pristope ter spodbuja razvoj novih analitičnih tehnik in metod, v slovenskem prostoru pa nima skupnega mesta za predstavitev dosežkov svojega dela in diskusijo med različnimi deležniki na področju. Tu zaostajamo za primerljivimi in sosednjimi državami, saj so npr. v Pragi septembra 2015 organizirali prvo konferenco o digitalni humanistiki na Češkem, na Dunaju pa decembra 2015 poteka že druga konferenca o Digitalni humanistiki v Avstriji.

Zato bodo Slovensko društvo za jezikovne tehnologije (SDJT), Center za jezikovne vire in tehnologije Univerze v Ljubljani (CJVT) ter raziskovalni infrastrukturi CLARIN.SI in DARIAH-SI konec septembra 2016 organizirali konferenco “Jezikovne tehnologije in digitalna humanistika”.

Na konferenci bi si želeli zbrati prispevke z naslednjih področij:

  • govorne in druge eno- in večjezične jezikovne tehnologije
  • digitalno jezikoslovje: korpusno jezikoslovje, leksikologija in leksikografija, standardizacija; prevodoslovje
  • digitalna humanistika in zgodovinopisje, etnologija, muzikologija, kulturna dediščina, umetnost ter arheologija
  • digitalna humanistika v izobraževanju in digitalna publicistika

Dobrodošli so prispevki, ki predstavijo smernice, raziskave, dobre prakse, projekte in rezultate na teh področjih.

V sklopu konference predvidevamo tudi vabljena predavanja, študentsko sekcijo ter panele o temah, povezanih s konferenco.

Pomembni datumi

  • 01. 03. 2016    oddaja razširjenega povzetka
  • 01. 04. 2016    obvestilo o sprejetju povzetka
  • 01. 06. 2016    (oddaja celotnega prispevka)
  • 15. 07. 2016    (obvestilo o sprejetju prispevka)
  • 01. 09. 2016    oddaja končnega prispevka oz. povzetka
  • 29. 09.–01. 10. 2016    KONFERENCA

Navodila za prispevke

Prispevke bomo zbirali najprej kot razširjene povzetke, nato pa se bodo avtorji sprejetih prispevkov odločili, ali bodo povzetek razširili v polni prispevek, ki bo ponovno recenziran in objavljen v zborniku, ali pa bodo ostali pri razširjenem povzetku, ki bo objavljen v knjižici povzetkov.

Uradni jeziki konference so angleščina, slovenščina, hrvaščina, srbščina, bosanščina, črnogorščina in makedonščina.

Razširjeni povzetki naj bodo dolgi dve strani (brez bibliografije), polni prispevki pa 8–10 strani. Končna verzija obojih mora biti stavljeni v skladu s predlogo konference, ki jo bomo objavili v kratkem.

Prispevke zbiramo preko platforme EasyChair na naslovu
https://easychair.org/conferences/?conf=jtdh2016

Avtorji prispevkov naj označijo, ali gre za študentski prispevek, kjer morajo vsi avtorji biti do- ali podiplomski študentje. Ti prispevki bodo na konferenci imeli svojo sekcijo, izbran in nagrajen pa bo tudi najboljši študentski prispevek.

Knjižica povzetkov in zbornik prispevkov bosta dostopna na spletu ob začetku konference.

Več o dogodku na spletni strani konference.

Označevalni jezik XML–TEI v humanistiki

Uvodna delavnica o digitalni humanistiki

Predstavitev je potekala v sredo, 15. oktobra 2014, od 9. do 14. ure v Prešernovi dvorani SAZU.

 

Uvod v XML in TEI

Tomaž Erjavec

 

V predavanju smo spoznali osnove standarda za označevanje XML. Ogledali smo si zgradbo dokumentov in model označevanja v XML, na kratko pa obravnavali tudi kodiranje znakov s poudarkom na standardu Unikod. Nato so bile predstavljene sheme XML, ki omogočajo formalno definicijo gramatike in nabora oznak za določen tip dokumentov. V drugem delu predavanja smo spoznali Iniciativo za zapis besedil TEI (Text Encoding Initiative). Smernice definirajo sistem za izgradnjo shem XML in podrobno dokumentirajo preko 500 elementov, ki jih TEI predvideva za označevanje zelo raznorodnih tipov besedil in za raznovrstne analitične obravnave. Podali smo motivacijo za ustanovitev in zgodovinski pregled TEI ter glavne prednosti uporabe Smernic TEI za zapis in označevanje besedil.

 

Uvod v TEI

Matija Ogrin

Smernice konzorcija TEI  skušajo ustreči raznolikim potrebam humanistov, katerih glavni predmet preučevanja so besedila. Smernice določajo obsežen nabor oznak XML, s katerimi je moč označiti (kodirati) raznolike strukture humanističnih besedil. Oznake so združene v module za razna področja dela z besedili. V predavanju bomo spoznali splošno strukturo, predpisano za dokumente TEI, in najpomembnejše module, ki jih humanisti uporabljamo pri delu z besedili.

 

Primer uporabe: znanstvene izdaje primarnih virov

Matija Ogrin

Eno od temeljnih delovnih področij v vseh historičnih in filoloških vedah je izdajanje znanstvenih edicij primarnih virov (starejših tiskov, rokopisov). Temu delu je namenjen eden od modulov TEI in pripadajoče poglavje Smernic. V predavanju smo orisali najbolj pogoste strukture in označevalne prakse, relevantne za pripravo izdaje (starejših) besedil.

 

Primer uporabe: opis rokopisov

Matija Ogrin

Rokopisi predstavljajo enega najpomembnejših segmentov kulturne, zlasti slovstvene dediščine, zato po svetu in pri nas nastajajo elektronske zbirke, ki predstavljajo podrobne opise rokopisov skupaj z digitalnimi faksimili izvirnika. Smernice TEI so temu področju namenile poseben modul, ki je v predavanju predstavljen v raznih možnostih od manj do bolj kompleksnega označevanja.

 

Primer uporabe: biografski in prozopografski podatki 

Petra Vide Ogrin

Smernice TEI namenjajo poseben modul biografskim in prozopografskim podatkom, ki jih srečujemo v arhivskih regestah, prozopografijah in predvsem v leksikografskih publikacijah. Na te smernice je bilo oprto označevanje biografskih podatkov v spletnem portalu Slovenska biografija, ki obsega tri leksikone: Slovenski biografski leksikon (1925-1991), Primorski slovenski biografski leksikon (1974-1994) in Novi Slovenski biografski leksikon (2013). V predstavitvi smo nakazali, kako so nam oznake TEI omogočile podrobno označevanje osebnih in variantnih imen, nazivov in plemiških predikatov, krajevnih imen, datumov, poklicev oz. dejavnosti in sorodstvenih vezi ter njihovih posebnosti.

 

Primer uporabe: izvorno digitalni podatki in strukturirani podatki

Andrej Pančur

Smernice TEI so bile prvotno sicer narejene za označevanje digitaliziranih tiskanih besedil analognih besedil, toda v zadnjih letih se vedno pogosteje uporabljajo pri označevanju raznovrstnih izvorno digitalnih besedil, med drugim tudi znanstvenih publikacij. V predavanju smo obravnavali prednosti in pomanjkljivosti elektronskega založništva v humanistiki po Smernicah TEI v primerjavi z nekaterimi drugimi v založništvu splošno razširjenimi označevalnimi jeziki (DocBook, XHTML, HTML5). Poleg tega smo prikazali, kako je mogoče v izvorno digitalna besedila vključiti strukturirane podatke iz tabel in relacijskih baz podatkov.

Primer uporabe: jezikoslovno označeni korpusi in slovarji

Tomaž Erjavec

Računalniški korpusi besedil predstavljajo osnovo za empirične raziskave jezika, tako pri temeljnih jezikoslovnih raziskavah kot pri uporabnem jezikoslovju, predvsem slovaropisju. Smernice TEI imajo poseben modul za zapis korpusov, dodaten modul pa za jezikoslovne oznake, ki jih lahko dodajamo besedilom, s čimer naredimo korpus bistveno bolj uporaben. V predavanju bomo pogledali nekaj primerov jezikoslovno označenih korpusov slovenskega jezika, nato pa še primere zapisa slovarskih podatkov, za katere Smernice tudi ponujajo samostojen modul.

Avtorsko pravo v digitalni dobi

V času, ko digitalna tehnologija in globalna komunikacijska omrežja omogočajo hitro reproduciranje in razširjanje vsebin, vsi pričakujemo velik napredek družbe znanja, zlasti zaradi novih možnosti ponujanja vsebin na spletu z namenom ustvarjanja in tudi razširjanja znanja.

Hitro pa naletimo na težavo, saj tehnologije omogočajo skoraj vse, avtorsko pravo pa skoraj vse prepoveduje.

Kako se z izzivi avtorsko-pravne ureditve soočajo javne institucije, ki zbirajo, urejajo in hranijo vsebine, velikokrat pa jih tudi ustvarjajo in razširjajo? Katere sodobne storitve lahko ponudijo, da bi bolje služile svojim ciljem?

O tem smo 18. decembra 2012 govorili na prvi SIDIH delavnici, ki jo je vodila dr. Maja Bogataj Jančič.


Ob množici vprašanj, ki so se porodila ob prvi delavnici, pa smo na drugi Sidih delavnici poskušali odgovoriti na 20 vprašanj, s katerimi se vsakodnevno srečujemo pri našem delu. Delavnica je potekala 17. julija 2013 v atriju ZRC SAZU, ponovno pa jo je vodila dr. Maja Bogataj Jančič.

 

Odprta dostopnost – predstavitev

V ponedeljek, 11. maja 2015 je v sejni sobi Inštituta za novejšo zgodovino potekala predstavitev odprtega dostopa do rezultatov javno financiranih raziskav, ki sta jo v okviru nacionalne iniciative DARIAH-SI pripravila Inštitut za novejšo zgodovino in Znanstvenoraziskovalni center Slovenske akademije znanosti in umetnosti.


 

Odprta dostopnost recenziranih publikacij in raziskovalnih podatkov: določila financerjev in praktična izvedba


Odprti dostop do rezultatov raziskav v obliki recenziranih publikacij in raziskovalnih podatkov je del odprte znanosti. Julija 2012 so bili na ravni Evropske unije sprejeti dokumenti glede odprtega dostopa v Evropskem raziskovalnem prostoru. Z januarjem 2014 so z okvirnim programom financiranja Obzorje 2020 stopila v veljavo tudi določila glede odprtega dostopa. Enaka določila naj bi sprejele tudi države članice EU. Obvezna je odprta dostopnost do recenziranih publikacij iz sofinanciranih projektov. V okviru programa Obzorje 2020 v letih 2014 in 2015 poteka Pilot odprtih raziskovalnih podatkov. Podatki o odprtih objavah in raziskovalnih podatkih, ki so nastali v okviru evropskih projektov ali nacionalnega financiranja raziskovalne dejavnosti, se zbirajo na portalu OpenAIRE.

Ob kliku na ime posameznega predavatelja se vam odpre Powerpointova predstavitev, ob kliku na posamični naslov pa videoposnetek.

PETRA TRAMTE: Aktivnosti Evropske komisije in Slovenije

MOJCA KOTAR: Odprta dostopnost recenziranih publikacij

JANEZ ŠTEBE in ANDREJ PANČUR: Razlogi za odprti dostop do raziskovalnih podatkov: politike, načela in koristi

Predstavitev je bila prva iz niza dogodkov na temo odprtega dostopa. 20. 5. 2015 je potekal celodnevni nadaljevalni seminar Praktični vidiki objavljanja v odprtem dostopu v organizaciji Ministrstva za izobraževanje, znanost in šport, Narodne in univerzitetne knjižnice, Centralne tehniške knjižnice Univerze v Ljubljani in Univerzitetne knjižnice Maribor.

Vlada Republike Slovenije je 3. 9. 2015 potrdila Nacionalno strategijo odprtega dostopa do znanstvenih objav in raziskovalnih podatkov v Sloveniji 2015-2020.

Besedilo nacionalne strategije je dostopno na spletni strani Ministrstva za izobraževanje, znanost in šport Republike Slovenije.


Informacije o odprtem dostopu in odprti znanosti:

Open Access Slovenia,
Informacija o odprtem dostopu do recenziranih publikacij in raziskovalnih podatkov v programu Obzorje 2020,
Priprava raziskovalnih podatkov za odprti dostop: priročnik za raziskovalce,
o odprti znanosti: Science Commons principles for open science; Center for Open Science; Open Science Federation; Mozilla Science Lab; OKF Open Science Working Group (Open Science at the Open Knowledge Foundation); Open Science Framework; Open notebooks at OpenWetWare (biology, biological engineering); Open Notebook Science Network (chemistry and other disciplines); The IPython Notebook (interactive computational science).

digital-humanities-at-uq-logo-4

Označevanje besedila s TEI oznakami v program Microsoft Word

IMG_0217

Po dobro obiskani uvodni delavnici o digitalni humanistiki (Označevalni jezik XML-TEI v humanistiki) smo v okviru dejavnosti DARIAH-SI v prostorih Inštituta za novejšo zgodovino 4. decembra 2014 organizirali tudi praktično delavnico z naslovom: Označevanje besedila s TEI oznakami v program Microsoft Word.

Delavnica je bila namenjena raziskovalcem, ki bi želeli označevati besedila z osnovnimi TEI oznakami (http://www.tei-c.org/index.xml), vendar se pri tem ne bi želeli poglabljati v označevalni jezik XML.

  • Delavnico je vodil Andrej Pančur, ki je predstavil:
    OxGarage (http://www.tei-c.org/oxgarage/) – konverter, s katerim je mogoče med seboj pretvoriti dokumente različnih formatov,
  • kako pretvoriti Microsoft Word DOCX dokument v TEI.

Udeleženci so med drugim spoznali spoznali kako:

  • urejati wordov dokument, da pretvorba v TEI dokument omogoči čim bolj optimalne oznake,
  • dodajati nove TEI oznake z določanjem novih Word slogov.

V sklepnem delu je bil predstavljen predstavljen DOCX to TEI to HTML konverter (http://nl.ijs.si/tei/convert/), ki je bil narejen za potrebe slovenske digitalne humanistike.

Delavnica je potekala na praktičnih primerih obdelovanja poljubnih wordovih dokumentov.

popisi

Predstavitev modula Popisi prebivalstva Slovenije (1830-1931) na spletišču SI-DIH

V okviru nacionalnega spletišča za humanistiko SI-DIH je v dvorani Zemljepisnega muzeja Andrej Pančur 12. junija 2014 predstavil na portalu Zgodovina Slovenije – SIstory objavljene popise prebivalstva Slovenije (1830-1931), ki jih v originalu hrani Zgodovinski arhiv Ljubljana.

Na praktičnih primerih je prikazal različne načine iskanja po popisih, naše novo orodje za prepisovanje podatkov ter orisal načrte za prihodnost.