BLOG


Tillykke Danmark ! Digitalisering af ældre danske tidsskrifter startet

Af Jørgen Burchardt

10-08-2008
Danske forskere og historisk interesserede har fået gode nye muligheder: at kunne søge på nettet i gamle udgaver af tidsskrifterne. Danmark ønskes tillykke med det nye redskab. Arbejdet skal fortsættes - men med væsentlige korrektioner



På netadressen Tidsskrift.dk vil man fremover kunne læse de ældre udgaver af Danmarks førende tidsskrifter. Således ligger Historisk Tidsskrift i en digital udgave siden 1840, Nationaløkonomisk Tidsskrift fra 1873 samt syv andre tidsskrifter i deres fulde udstrækning fra deres etablering og til for et par år siden. I alt 540 bind er blevet scannet og behandlet i et OCR-program. Selve teksten ligger dels som en tekstfil i HTML og kan fås i en pdf-udgave. De fleste tidsskrifter har ønsket en tidsfrist på 3-10 år, en såkaldt ’moving wall’, så den gratis udgave ikke ville undergrave tidsskrifternes økonomi ved at ødelægge det aktuelle salg.

Tidsskrifterne er digitaliseret af Det Kongelige Bibliotek og medfinansieret af DEFF, Danmarks Elektroniske Fag- og Forskningsbibliotek.

Det angives på projektets hjemmeside, at ønsket er at etablere en dansk udgave af den amerikanske JSTOR. Det er på en måde lykkedes – og mere til: mens det amerikanske arkiv kun er tilgængelig for abonnerende biblioteker, er den danske udgave gratis tilgængelig på nettet.

Jeg kan som historisk forsker bekræfte projektets succes. Allerede ved et par enkelte af mine egne historiske projekter, hvor jeg har søgt på nettet, er jeg af Google blevet henvist til artikler på Tidsskrift.dk

Artiklerne er herved blevet tilgængelige på en helt anden måde, end når de blot har ligget i papirform på en reol i et bibliotek. Nu kan man søge på hvert enkelt ord og sætning.

Det er en ressource, som er blevet gjort tilgængelig og som i al fremtid vil være tilgængelig for historisk interesserede. Vi er blevet rigere.

Tillykke Danmark.

Kvaliteten svingende – om igen


Der er dog et enkelt og meget væsentligt kritikpunkt: scanningen og den efterfølgende OCR genkendelse har ikke været perfekt i mange tilfælde. Der har ikke været (penge?) til at læse korrektur på det læste, hvorfor der er fyldt med fejllæsninger.

Udgiverne er klar over fejlene og har delt materialet i tre kategorier: 1) det bedste, 2) det halvdårlige, som man måske kan søge i med et godt resultat og 3) det meget dårlige, som ikke bliver vist i en tekstudgave men kun i form af et billede af siderne.

Heldigvis omfatter det dårlige kun en mindre del af tidsskrifterne. Derimod er det halvdårlige ret omfattende. Efter min vurdering omfatter det mere end halvdelen, da der selv i det bedre behandlede materiale findes fejl af typen ”190o” og ”begrænset,geografisk”.

Der skal læses korrektur på et sådan materiale. Når man gør kildemateriale af denne type tilgængeligt, skal man tilstræbe, at det er 100 % korrekt. Det skal være i orden, så man er sikker på, at når man søger og ikke finder et citat eller et navn, så er det fordi det ikke findes i publikationerne; ikke fordi arbejdet er udført ukorrekt.

Det er sikkert, at økonomi på mange måder er det begrænsende element i et projekt som dette. Man bør dog tænke utraditionelt. F.eks. kan man skele til hvilket godt resultat, der er opnået ved at inddrage frivillige og ulønnede interesserede i projektet omkring inddatering af folketællinger i projektet Dansk Demografisk Database Index, og hvor den efterfølgende korrekturlæsning også læses af ulønnede idealister. Når selve materialet er færdigt, forløber korrekturlæsningen over nogle år indtil den er afsluttet. Samme model er benyttet ved det amerikanske projekt Gutenberg og ved det tilsvarende nordiske projekt Runeberg.

Der skal nytænkning til


Der ligger så meget potentielt ”guld” for kulturhistorisk interesserede i det gamle papir, som blot venter på at blive gjort tilgængeligt gennem en digitalisering. Man burde starte med de vigtigste hjælpemidler for historikere – Kraks Blå Bog, Dansk personalhistorisk bibliografi, udvalgte dele af Statistiske Tabelværker, adresse- og telefonbøger samt de manglende historiske tidsskrifter. Dernæst burde man gå i gang med de historiske monografier fra en ende af.

Projektet er dog helt urealistisk med de hidtidige politikker. Det Kongelige Bibliotek angiver en pris på 100.000 kr. pr. 10.000 sider, hvilket er meget mere end det dobbelte af, hvad markedspriserne aktuelt er i Europa – vel og mærke for første klasses arbejde ved robotmaskiner, som vender mere end 1.000 sider i timen.

Der skal tænkes og handles utraditionelt. Frivilligt arbejde vil kun give et mindre og langsomt resultat. Low budget digitaliseringen Salmonsens leksikon er kun nået til godt halvdelen af bindene på 8 år, og kun 5 % er korrekturlæst af de bedste af bindene.

Man burde sende containere med bøger af sted til lande med billig arbejdskraft, som kunne gøre arbejdet til en fraktion af prisniveauet i Europa. Ifølge New York Times (11 marts 2007) anslås Googles udgifter pr. scannet bog til 35 kr.

Der findes en rapport på vej fra Kulturministeriet om ”Digitalisering af kulturarven”. Der kunne være anbefalinger af den ønskede tilgængeliggørelse, men beløb i størrelsesordenen af trecifrede millionbeløb som DR har fået til digitalisering af sine samlinger, er der nok ikke tale om. Heller ikke europæiske projekter gennem Digital Libraries Initiatives vil sandsynligvis betyde store resultater for danske bøger og tidsskrifter på kort sigt.

Samarbejde med Google?


Vi har vist alle hørt om Googles store Library Project om digitalisering af bøger. Om ikke andet fordi, der har været problemer omkring copyright.

Projektet kører dog i fuld fart fremad. I modsætning til et tilsvarende projekt fra Microsoft om digitalisering af 100.000 bøger fra British Library, som blev stoppet, fortsætter Google at indgå aftaler med biblioteker, hvis bøger man digitaliserer. Ofte får bibliotekerne en digital udgave, som de får lejlighed til selv at formidle (ikke alle bibliotekers aftaler er offentliggjort, så det vides ikke om det er en generel mulighed).

Det nye er, at det på det seneste ikke kun er engelsksproget litteratur, der bliver scannet. Således er der blevet indgået aftaler med store franske og tyske biblioteker, hvorfor disse to bibliotekers hovedsprog også bliver repræsenteret. En af de sidste aftaler er indgået med et belgisk bibliotek, som vil levere bøger på hollandsk. Herfra er der ikke langt til at tænke sig, at dansk også kunne blive et sprog, som Google gratis (i første omgang for os) vil digitalisere.

Nogle biblioteker har været handlingslammede over for en digitalisering, da den europæiske copyright er anderledes restriktiv end i USA. Det bør dog ikke forhindre f.eks. et dansk bibliotek at indgå en aftale med Google med start i det ældste materiale; hvordan Google efterfølgende benytter materialet i offentligheden er en anden sag.

Tidsskrifter bør få synergien


Projektet med digitalisering af de ældre tidsskrifter bygger på aftaler med de respektive tidsskrifter. Her må lyde et godt råd for tidsskrifterne: sørg for, at det er tidsskriftet selv, som opnår synergieffekten af de digitaliserede udgaver.

Hvis f.eks. de digitale udgaver af Historisk Tidsskrift blev fundet på tidsskriftets hjemmeside, ville det generere ekstra indtægter for tidsskriftet. Vores erfaringer fra Tidsskrift for Arbejdsliv, hvis ældre numre ligger tilgængelig på tidsskriftets egen hjemmeside, viser et stort salg selvom numrene skulle ligge digitalt. Faktisk består op mod en tredjedel af tidsskriftets løssalg interessant nok af numre, der ligger digitalt og gratis på nettet; læserne vil i stor udstrækning have papir. Samtidig er der en betragtelig indtægt fra abonnementer, som er tegnet ved at folk er blevet opmærksomme på tidsskriftet og dets kvaliteter takket være søgning på Google.

Et løst estimat: Historisk Tidsskrift mister i dag en indtægt på 200.000 kr. eller mere årligt, fordi de ikke høster en synergi, som det vil være meget naturligt skulle tilfalde dem.



Link ud - til mere tekst

Kommenter: