Subject Repositories

En historie om Subject Repositories

Op gennem 1950′erne og 1960′erne begyndte stakkene af preprints og reprints at vokse rundt omkring i verdenen; formentlig både på grund af den øgede videnskabelige produktion, men også som følge af bedre distributionsmuligheder i verdenen generelt. Dog var preprints almindeligvis ikke at betragte som “rigtige” publikationer – men som “grå litteratur” – så de færreste steder blev preprints katalogiseret eller på anden måde registreret i biblioteksverdenen. På baggrund af denne udvikling skrev Luisella Goldschmidt-Clermont, der var bibliotekar CERN, en artikel med titlen “Communication Patterns in High Energy Physics” til tidsskriftet Physics Today (februar 1965, upubliceret), som dog af forskellige årsager p.t. kun eksistere som preprint. Emnet var hvorledes bibliotekerne burde behandle det voksene antal preprints. Goldschmidt-Clermont artikel gik dog i glemmebogen indtil den blev genopdaget i internetæraen.

Allerede inden Tim Bernes-Lee beskrev den fremtidige protokol for WWW i 1989 (dengang var han ligeledes på CERN), var mange videnskabelige artikler begyndt at blive “født” som digitale værker, og eksisterede for eksempel som dokumenter i formaterne Wordperfect, LaTeX? , TeX? eller Encapsulated PostScript? . Dette banede vejen for arXiv, der oprindelig var et projekt på Los Alamos National Laboratory (med adressen xxx.lanl.gov, der afslører at arkivet er opstået før WWW). Projektet startedes blandt andet af fysikeren Paul Ginsparg, som et elektronisk preprint-arkiv for fysik, men er senere blevet udvidet til flere andre naturvidenskabelige og kvantitative fag.

Arkivet skiftede navn til det nuværende i 1999 – hvor X’et afspejler den oprindelige adresse – og det hostes i dag af Cornell University Library. ArXiv? indeholder over ½ million e-prints, der alle er fuldtekster i open-access. Nogle findes i flere versioner. Værkerne valideres ikke centralt, men i 2004 indførtes et endorsement-system, hvor alle nye brugere, der ønsker at uploade e-prints, skal godkendes af allerede eksisterende (og godkendte) brugere. Ikke alle brugere kan endorse andre.

Der er enkelte historier med e-prints der er administrativt fjernet fra arkivet, på grund af videnskabelig uredelighed, men disse tilfælde høre til sjældenhederne. Omvendt findes der også flere originalværker i arXiv, der ikke er publiceret andetsteds, eksempelvis Hirsch originalartikel om h-index (citationsmålinger) og matematikeren Perelmans artikler om Poincarés formodning, der ledte at han fik den præstigefyldte Fieldsmedalje i 2006. Perelman er i øvrigt kendt for at have udtalt, “If anybody is interested in my way of solving the problem, it’s all there [i arXiv] – let them go and read about it.”

ArXivs? succes består i at målgruppen bruger det i stor stil, men hvorfor gør de så det? En mulig forklaring er, at arkivet simpelthen er blev et dogmet; en del af den publikationstradition, som forskerstuderende opdrages i – enten er man med, eller også er man ikke at regne for seriøs. En anden, kontra-mulighed, er at brugerne er bevidste om, at det giver dem en fordel, at benytte arkivet. Der findes formentlig ikke ét endegyldigt svar, og der er modeksempler på begge hypoteser: Et argument mod den blinde anvendelse, det vil sige publikationstraditionen, er at brugen af arXiv varierer stærkt henover undergrene af de videnskaber, der er repræsenteret i arkivet. Det vil eksempelvis sige, at selvom fysikstuderende generelt opdrages med arXiv, er der nogle fysikområder, der bruger arXiv meget mindre end andre. Men da fysikere typisk først vælger deres “endelige” forskningsområde i forbindelse med indskrivningen på en phd-uddannelse, men også ofte skifter emne, så kunne man måske forvente en mere ensartet brug af arXiv. Et argument mod hypotesen om brugernes bevidste valg er, at de færreste arXiv-brugere formentlig forbinder deres brug af arkivet med begrebet open-access.

Den primære målgruppen for fagarkiver såsom arXiv er således forskerne. Dette gælder på alle niveauer, for sådanne systemer: Det er forskere der uploader, det er forskere der downloader, og det er forskere der driver udviklingen. Man kan sige, at forskernes egen selv-arkivering i faglige arkiver er en form for selv-publisering; både af “grå litteratur”, men i mange tilfælde af allerede publiseret, og fagfællebedømte værker, det vil sige parallel-publisering. De forskere miljøer der anvender selv-arkivering “by-passer” dermed TA-tidsskrifter, der dog i de langt de fleste tilfælde tillader selv-arkivering (jf. Sherpa/Romeo-undersøgelsen). Sekundære målgrupper for SR, er studerende, undervisere og videnskabsjournalister, der gennem arkivet har let adgang til nyheder og alerts, samt kan få adgang til materiale, som de ellers normalt skal betale for, eller på biblioteket efter.

En anden forskel fra IR er, at faglige arkiver ikke har som formål at være 100 % dækkende. Det vil sige, man ønsker ikke at gøre al materiale tilgængelig, summeret over hverken institutioner, forfattere, eller emneområder. I stedet handler det om, at forskerne selv giver adgang til de værker, som de ønsker at andre skal læse, citere, og bedømme dem på. Dermed opstår der også en mulighed for en såkaldt forfatter-bias – at forfatteren selv vælger hvilke artikler de vil lægge ud – og dermed hvilke artikler der eksponeres over for deres kollegaer. Dette beskrives af bl.a. Harnard som en årsag til potentiel højere kvalitet: Man ønsker ikke at ses som useriøs af forskningsmiljøet, ved eksempelvis at selv-arkiverer flere udgaver af den samme artikel, fra både konferenceproceedings og peer-reviewede kilder – i stedet vælger man kun at arkiverer den mest præstigefulde udgave.