En historie om Institutional Repositories
Institutional Repository bliver defineret som ”[…]digital collections capturing and preserving the intellectual output of a single or multi-university community […]“ 2 af Raym Crow i den grundlæggende artikel om IR fra 2002. Crow fortsætter med at skrive at sådanne repositories kan levere et vigtigt komponent i reformationen af det eksisterende videnskabelige kommunikationssystem (”system of scholarly communication”), ved at udvide adgangen til forskningsresultater og genvinde universiteternes kontrol over forskningen og dermed fravriste forlagenes monopol. Endvidere har IR potentiale til at dokumentere et universitets kvalitet ved at udstille den videnskabelige, samfundsmæssige og økonomiske relevans af dets forskningsaktiviteter, dermed øge institutionens synlighed, status og samfundsmæssige værdi.
Crow’s syn på IR er samtidigt klart at det skal være redskab til at ændre det eksisterende magtforhold på markedet for videnskabelig kommunikation ved at fratage forlagene deres monopolistiske markedsposition. Det skal ske ved at tilbagevinde det intellektuelle ejerskab over forskernes publikationer til den akademiske verden og alene give forlagene en ikke eksklusiv ret til at publicere artiklerne og derved give forskerne ret til at distribuere deres artikler som de ønsker det, eksempelvis og helst i Crow’s perspektiv arkivere artiklen i IR. Således vil forlagenes aktiviteter bliver afgrænset til håndteringen af peer review processen, tilbyde værdigberigede services som ”overlay journals” baseret på indholdet i repositories. 3 Crow’s argumentation for IR var altså direkte forslag til hvordan den såkaldte ”serial-crisis” skulle håndteres, og måske ikke overraskende når artiklen var skrevet i The Scholarly Publishing and Academic Resources Coalition (SPARC) navn 4.
Institutional Repository konceptet bygger videre på de idéer som blev introduceret med preprint arkivet arXiv. Men forsøget med at kopiere/overfører arXiv succesen til andre fagområder er kun lykkes for få fagdomæner som i økonomi (RePEc? ) og Psykologi og dertil relaterede emner (CogPrints? ), men disse fagområder har haft en eksisterende tradition for preprints udveksling som beskrevet [her]. Rationalet for deres succes er at preprint-kulturen har givet disse repositories kritiskmasse, således at det er uundgåeligt for forskerne inden for disse fagdomæner at bidrage til arkivering, hvis de da har ambitioner om at få indflydelse og karriere. Andre fagområder uden denne tradition har forskerne slet ikke dette behov, faktisk er ”Access” problemet et hypotetisk spørgsmål for mange forskere der er tilknyttet ressource stærke institutioner og ikke oplever nogen begrænsning i deres forskning pga. manglende adgang til andres eller egne resultater (Philip M. Davis and Matthew J.L. Connolly. (2007)). Crow konkluderer i sit paper at forskere inden for domæner hvor der endnu ikke er tradition for at selv-arkivere skal hjælpes på vej ved hjælp af repositories på universiteterne, Institutional Repositories.
Denne tanke var dog ikke ny; allerede i 1994 forslog Stevan Harnad at forskere skulle tilgængeliggøre deres forskning via lokale FTP-servere 5. Modsat Crow, så Harnad parallelpubliceringen alene som et supplement til den traditionelle publicering. Ved at parallel publicere artiklerne i elektroniske arkiver kunne man give alle adgang til forskningsresultater uanset økonomisk formåen. Det ville styrke forskningens impact til gavn for forskerne selv og samfundet som helhed ved at øge innovations hastigheden. Teknisk var ideen dog reelt naiv og ikke realiserbar i praksis, da FTP-serverne krævede at brugerne og potentielle læsere skulle have forhåndskendskab til publikationernes placering. Selv om det tekniske forslag måske var naivt, så er det grundlæggende samme idé Harnad promoverer i dag som en markant stemme i Open Access debatten. Han er en af de varmeste fortalere for selv-arkivering af post-print og forlagsversioner af artikler i IR. Men for at Harnad’s idé skulle kunne realiseres var der brug for en infrastruktur der kunne forbinde selvarkiveringsarkiverne.
OAI-PMH
I 1999 skete der noget meget vigtigt for selvarkiveringsbevægelsen. Paul Ginsparg, manden bag arXiv inviterede forfattere fra mange andre forskningsfelter end fysik til at selv-arkivere. Invitationen blev opfulgt af Santa Fee mødet 6 hvor Universal Preprint Server (UPS) blev præsenteret. UPS blev senere omdøbt til OAI-PMH af hensyn til navnesammenfaldet med Universal Parcels Service. OAI-PMH eller Open Archives Initiative – Protocol for Metadata Harvesting er som navnet siger en protokol til at høste metadata med. Idéen med at høste data var og er langt mere skalerbar end eksempelvis en model baseret på metasøgning via eksempelvis z39.50. Men da fulltekst og metadata via OAI-PMH blev skilt fra hinanden betød det også protokollen kunne anvendes til langt flere formål end til at tilgængeliggøre eprints, noget der senere er blevet både værdsat og kritiseret.
OAI-PMH v1.0 blev frigivet i 2001.
Allerede i 2000 blev det første Open Source repository software udviklet af Southampton University, EPrints 7 og i 2002 frigav MIT, sammen med en række universiteter, og i et joint-venture med HP Dspace som et open source institutional repository 8. Kendetegnet for begge repositories var at de var OAI-PMH kompatible. I 2002 lancerede Universitetsbiblioteket ved University of Michigan OAIster, den første store service provider, dvs. en slags fælleskatalog med adgang til at søge i metadata fra en række data providers, altså IR der var høstet via OAI-PMH. OAIster er senere blevet en del af OCLC. I kølvandet på EPrints og Dspace fulgte en række andre repositoy software, men EPrints og Dspace forsætter dog med at være de to dominerende open source platforme til opsætningen af et IR. 9
Institutional Repositories bristede forventninger?
Spredningen af Institutional Repositories på universiteterne har været en stor success. Mens bruger adoptionen har været mindre succesfuld. I Dlib artiklen “The Future of Repositories” [9] viser Aschenbrenner et al. situtationen med et Gartner Hype kurve baseret på brugeradoptionen af repositories.

Gertner Hype Curve (Aschenbrenner et al. (2008). D-Lib Magazine November/December 2008 Volume 14 Number 11/12
Kurven viser at at vi er gået fra toppen af forventninger hvor mange troede at hvis vi blot lancerede et repository på universitetet så ville forskerne automatisk komme og arkivere deres forskning. I dag har vi måske nået desillusionens lavpunkt. Spørgsmålet som Aschenbrenner et al. stiller er hvordan vi kan klare opstigningen af “slope of enlightenment”.
I Danmark er situationen noget anderledes end i de fleste andre lande. Således har institutional repositories og forskningsdatabaser fra starten været integreret eller i hvert fald stærkt forbundne. Det har betydet at der har været et helt andet organisatorisk incitament til at bruge databaserne end tilfældet har været for de institutional repositories som Aschenbrenner et al. taler om i deres artikel. Ikke desto mindre er det stadigvæk en kamp på universiteterne at for forkserne til også at bruge PURE forskningsdatabaserne til at arkivere deres forskning. Hvordan motivere vi forskerne til at anvende forskningsdatabaserne? I 2007 udarbejdede EU projektet DRIVER-II en grundig undersøgelse af best practices for data “recruitment” til institutional repositories som vi måske kan tage til lære fra.
Best practices
Det afsnit giver overblik over en række case studies af Institutional Repositories som kan inspirere med tiltag og/eller strategier som kan anvendes i Danmark. De følgende case studies baseret på “A DRIVER’s Guide to European Repositories” 10 og Venessa Proudman’s research for DRIVER projektet i 2007 11
Minho University Institutional Repository 12 Minho univeristet i Portugal har siden slutningen af 2003 haft sit Dspace repository. Et år efter lanceringen af Minho repository lancerede biblioteket idéen om en Open Access policy der kræver eller rettere forskriver at forskerne bør arkivere deres forskning i universitetets repository. Denne politik blev gennemført i 2005, da både universitetsbiblioteks direktøren, vice-dekanen for forskning og universitets rektor deler overbevisningen om at et relativt nyt universtet som Minho, etableret i 1974, må sikrer at forskningen såvidt muligt er tilgængelig for alle. Politikken er ikke en “one-size fits all”, men et ramme værk som giver muligheder for at enkelte institutter kan bestemme hvilke publikationer og forsknings output er mest interessant at arkivere i IR’et. Samme år besluttede dekanen at forskning registreret i Minho’s Dspace skal belønnes, det er dog ikke forskerne selv der belønnes, men de institutter forskerne er tilknyttet, på denne måde decentraliseres ansvaret for at forskningen bliver registreret i Dspace og motivationen for at det sker øges ved at der er et økonomisk incitament for institutterne selv. Til at fordele pengene anvendes der følgende nøgle: Peer-reviewed tidsskriftsartikler giver det højeste antal point (1), derefter kommer konference papers der modtager 0,5. Ligeledes gives der forskellige vægte på baggrund af aktualliteten af det som bliver arkiveret, således modtager de nyeste publikationer 1 point, mens ældre materiale modtager 0,3, på denne måde søger univeristetet at sikre at indholdet i IR er af god kvalitet og aktuelt.
Med denne strategi er det lykkes Minho at opnå ca. 40 % fuldtekster af den samledes forskningspublicering i 2007. Målet er at nå op på 100 %. Hvilket ikke virker usandsynligt når man taler med biblioteksdirektøren Eloy Rodrigues.
Biblioteket, som står for driften af universitets Dspace og står samtidigt for alt udvikling og support af systemet. Det er universitetsbiblioteks direktørens stor håb at IR kan udvikle sig til at bliver universitetets CRIS.
University of Southampton Research Repository, and School of Electronics and Computer Science (ECS) ECS Eprints Repository 13Eprints ved Universitetet i Southampton er et eksempel på at universitetets egne forskere og undervisere tager ansvaret for at starte og drive et repository. Repositoriet blev lanceret i 2001 og ECS udviklede Eprints softwaren14 til at løfte opgaven. ECS EPrints serveren blev senere lanceret som et tilbud til hele universitetet af universitets bibliotek som en del af JISC projektet TARDIS 15 under navnet Soton 16. I dag eksistere flere EPrint repositories side om side på universitetet, men tendensen er at institutterne overlader deres repository til den centrale EPrint server på Southampton. ECS Eprints Repository, der er den oprindelige EPrint server på universitetet, lever dog i bedste velgående som et selvstændigt repository på ECS.
Soton som Southampton Universitet kaldes til dagligt har en høj grad af autonomitet på institutterne. Denne frihed betød at ECS allerede i 2002 indførte en krævet arkivering i instituttets repository, således forskrev politikken at: “kun tidsskriftsartikler og konferecepapers arkiveret i IR vil blive medregnet når forskernes forfremmelser skulle vurderes. Denne politik medførte en klar forbedring af repositoriets indhold af fuldtekster der steg fra 6,7% i 2001 til 31,3% i 2002 og til 51% i 2004. I 2005 blev EPrint arkiverne også udpeget til at være grundlaget for den nationale engelske forskningsvudering (Research Assessment Exercise)17 betød endvidere en stigning på 8%. Universitets biblioteket fik også indført en krævet fuldtekst arkivering i den centrale EPrint arkiv i 2006, da en national beslutning om kun at stille krav til at gemme DOI’s i forbindelse med RAE18 betød et lav optag af fuldtekster. Bibliotekets IR manager deltager i universitetets RAE projektgruppe der er ved at planlægge en CRIS-agtig infrastruktur for Soton, hvor EPrints vil indgå som den bibliografiske dokumentation af forskningen på universitet.
ECS repository bliver drevet af instituttet selv og dermed selvstændig i forhold til for biblioteket der leder det centrale repository på Soton. Denne konstruktion har betydet at man på ECS har kunnet eksperimentere eller tilpasse politikker og kvalitetskontrol i forhold til lokale betingelser. Således har man på ECS ingen kvalitetskontrol af bibliografiske data før poster kan publiceres i EPrint arkivet, det betyder at forskerne straks kan se resultatet af deres registreringer på nettet og samtidigt undgår man den hos forskerne upopulære ekstra administration som kvalitetskontrollen medførte. Modsat ECS foretages der grundig kvalitetskontrol af metadata i det centrale repository på Soton hvor poster bliver beriget med data, eksempelvis DOI’s til forlagenes fuldtekster. Denne proces vurderes dog løbende for cost/benifit.
En af de grupper der er vanskelige at få til at arkivere i IR er de grupper der allerede har en tradition for at arkivere i subject repositories, som eksempelvis Arxiv.org. De har forståeligt nok ikke lyst til at arkivere to gange, derfor har Soton forsøgt at høste data fra Arxiv men ikke fået tilladelse til det (modsat CERN se næste case).
CERN document server19CERN er et eksempel på en international forskningsorganisation som servicerer et specifikt forskningsdomæne, i dette eksempel, partikelfysik. Forskere inden for partikelfysik har en lang tradition for at selvarkivere i arXiv.org, på trods af dette har CERN udfordringer med at få fyldt deres institutional repository CDS. CERN har siden 2003 har krævet arkivering i CDS, det har været nøglen til at opnår de ca. 50% af CERNs forsknings output via selvarkivering. Det er dog i høj grad andre end forskerne selv der registerer i repositories, men afdelings koordinatorer og forskernes assistenter. Selve CDS kan fremvise op mod 74% af CERNs output, på trods af at det er et stykke fra målet på 100% dækning, er det et impornerende resultat sammenlignet med andre repositories. At man har kunnet lægge yderligere 24% til dækningsgraden skyldes at CERN i høj grad høster fra subject repositories som forskerne arkivere i. Metoden med at høste fra andre er dog ikke skalerbar ifølge CERNs biblioteks chef Jens Vigen, således har biblioteket også indført en automatiseret service der tjekker forskernes publikationslister for publikationer der mangler i repositoriet og sender dem en auto-genereret ”reminder” mail hver gang der opdages en manglende artikel.
Cream of Science20 Det hollandske Cream of Science blev til som et projekt i DARE programmet koordineret af SURF foundation 21. Hovedformålet med Cream of Science var at gøre den bedste forskning offentlig tilgængelig. Et andet formål var at vise at forskere er villige til at arkivere deres forskning i Open Access Repositories og på den måde animere andre forskere til at gøre det samme. Cream of Science har i dag fuldtekster fra over 200 hollandske top forskere, det giver adgang til mere end 47.000 publikationer af disse er ca. 60 % tilgængelige i fuldtekst.
Oprindeligt var der 150 forskere i Cream of Science, hver af de 15 forskningsinstitutioner der samarbejdede om projektet udpegede 10 forskere. I dag er det antal så vokset til ca. 217. Målet er at forskernes samlede produktion digitaliseres og tilgængeliggøres så vidt muligt. Dette imponerende arbejdet blev gennemført i løbet af 9 måneder22. Efter lanceringen den 10 maj 2005, blev teamet bag Cream of Science overrasket over den store omtale projektet fik i både internationale, men især, de hollandske medier. Interesse var så stor at sitet gik ned, heldigvis kortvarigt. Men, mest opløftende for projektet var at en del af de deltagende forskere fra projektet var stolte over at være en den af Cream of Science, hvilket bl.a. kunne læses på adskillige forskerblogs.
I betragtningen af Cream of Sciences success og grundige dokumentation kan det undre at der ikke er andre nationer, som har forsøgt sig med et lignende projekt.
eCommons@Cornell: Dspace repository hosted by Cornell University Library23 Der er også eksempler på universiteter der har haft større problemer med at få deres institutional repositories fyldt med e-prints fra de universitetets forskere. Et eksempel på det er eCommons@Cornell fra Cornell University 24 der oplevede at flere af deres kollektioner i Dspace25 ikke blev brugt og at de kollektioner som blev brugt var de som universitetet havde investeret administrative ressource i. Det viste sig også at universitetets forskere og personale generelt havde meget lille kendskab til universitetes Dspace. Men det var ikke fordi at de ikke publiceret deres forskning på webben, det blev gjort i stor stil på egne hjemmesider og i subject respositores. Det videnskabelige personale på universitet gav mange grunde for hvorfor de ikke brugte universitetets repository, bl.a.: redundans med andre måder at sprede information, læringskurven, forvirring omkring copyright, frygt for plagiering, associering af sit arbejde med inkonsistent kvalitet og bekymringer om hvorvidt arkiveringen af et manuskript i repositoriet er lig med “publicering”.
Selvom forskerne på Cornell University ikke alle er lige gode til at registrere deres forskning i deres IR, så var deres også flere der kom med grunde til at de mente at det er en god idé, bl.a.: Persistens der sikrer at der publikationerne ikke forsvinder og giver brugerne døde links, at få publiceret resultater og få dem stemplet hurtigt, sådan at man kan bevise at man er den første med resultater og idéer.
Konklusionen på Cornells undersøgelse af brugen af universitets repository var at der var en stor kulturel diversifikation på universitetet. Hver videnskabelig disciplin, hver sin normative kultur som præger forskernes adfærd. Hvis ikke forskerne på en eller anden måde bliver belønnet for deres ekstra indsats i deres forskningsdisciplins eksisterende kultur så er motivationen for at selvarkivere minimal. Derfor må der tages hensyn til den store kulturelle diversifikation. Hvordan dette skal håndteres er et åbent spørgsmål. Men man kan måske lære af Minho og Soton der kæder deres arkivering sammen med promovering og økonomi, samt CERNs erfaringer med at hente data fra andre subject repositories.



1 comment
Comments feed for this article
Trackback link: http://www.open-access.dk/open-access-repositories/institutional-repositories/trackback/