Onderzoek naar auteursidentificatie

Slides:



Advertisements
Verwante presentaties
Uit liefde voor het vak… Onderwijs slim organiseren!!!
Advertisements

WEBWIJZER MEDISCHE BIBLIOTHEEK DE MEDISCHE BIBLIOTHEEK:
GfK Supermarktkengetallen
Personalisatie van de Archis website Naam: Sing Hsu Student nr: Datum: 24 Juni 2004.
Publicatiestrategie Hoe te publiceren in tijdschriften met een hoge impact factor Marianne van der Heijden 3 juni 2010.
Wat is goed onderwijsonderzoek?
1 Wat is microfinanciering ? 2 1. De financiële behoefte.
Dienstencatalogus 24 november Programma Wat is een productencatalogus Alle componenten op een rij – De generieke informatie – De specifieke informatie.
Ronde (Sport & Spel) Quiz Night !
© BeSite B.V www.besite.nl Feit: In 2007 is 58% van de organisaties goed vindbaar op internet, terwijl in 2006 slechts 32% goed vindbaar.
1 Diplomaruimte Infosessie studenten Faculteit Sociale Wetenschappen.
Basishandleiding Limo Meer info online via LIMO Help 1.
Registratie en certificatiesoftware bestaand residentiële gebouwen.
Sneeuwschuivers en leren sneeuwschuiven myResearch Portal en het belang van workflow data analyse Richard L. Zijdeman DAI: info:eu-repo/dai/nl/
Werken aan Intergenerationele Samenwerking en Expertise.
GfK PS Retail NLGfK Supermarktkengetallen augustus 2014 GfK Supermarktkengetallen Antwoord op deze vragen vindt u op: bij “GfK Publicaties”
GfK PS Retail NLGfK Supermarktkengetallen augustus 2014 GfK Supermarktkengetallen Antwoord op deze vragen vindt u op: bij “GfK Publicaties”
1 © GfK 2012 | Supermarktkengetallen | GFK SUPERMARKTKENGETALLEN ‘Hoe ontwikkelt het aantal kassabonnen zich?’ ‘Wat is de omzet van de supermarkten.
1 © GfK 2012 | Supermarktkengetallen | GFK SUPERMARKTKENGETALLEN ‘Hoe ontwikkelt het aantal kassabonnen zich?’ ‘Wat is de omzet van de supermarkten.
De beste wensen voor Rankings Shanghai ranking (ARWU) Institution52 50 ______________________________________________________ Broad Subject.
30 juni Deze morgen Vorige bijeenkomst: –een concepthierarchie van kernbegrippen in Logic & Language vakgebied (o.b.v. glossary) Vandaag: –Jon:
nieuwe toepassingen 2008 Schoolbib 2.0 / VVBAD Mechelen, 5 november 2008 Rosemie Callewaert - Project Manager VCOB.
Studielink, een nieuw patroon? Kees van Wijngaarden 9 november 2005.
INFORMATION MODELLING
Wouter Jansweijer, 16 September, Literatuur zoeken Project informatiewetenschappen october 2002.
A H M F K EB C x 91 Van hand veranderen voor de X splitsen en Rechangeren. Met de nieuwe partner op.
A H M F K EB C x 85 Korte zijde bij C 2 e secties volte 14 m en op afstand komen ( 0,5 rijbaan)
A H M F K EB C x 88. Korte zijde bij A en C changement met gebroken lijnen (opsluiten!) Daarna rijden.
A H M F K EB C x 92 Galop Binnenruiters grote volte bij A en C -partnerruil- Volgende korte zijde in.
ZijActief Koningslust 10 jaar Truusje Trap
Inleiding tot de multifunctionele aangifte
Technologie voor een duurzame gezondheidszorg Opening van IMDI-CoRE SPRINT juni 2011www.IMDI.nl.
Het KB e-Depot Waarom, wat en voor wie
Bibliotheek Sociale Wetenschappen Introductie tot het zoeken  Website faculteitsbibliotheek  Catalogus LIBISng: boeken, eindwerken, tijdschriften  Databanken:artikels.
Bibliotheek Sociale Wetenschappen Introductie tot het zoeken Sociologie / Sociaal Werk   Website faculteitsbibliotheek   Catalogus LIBISnet: boeken,
Bibliotheek Sociale Wetenschappen Introductie tot het zoeken Communicatiewetenschappen   Website faculteitsbibliotheek   Catalogus LIBISnet: boeken,
Bibliotheek Sociale Wetenschappen Introductie tot het zoeken Master Toerisme   Website faculteitsbibliotheek   Catalogus LIBISnet: boeken, eindwerken,
LibQUAL Onze conclusies. Wat is LibQUAL+? Internationaal gestandaardiseerd gebruikersonderzoek Ontworpen door Association of Research Libraries.
Duurzame Inzetbaarheid in de publieke sector. 2 Onderzoek In opdracht van Ministerie van BZK Secundaire analyse POMO 2010 Doelgroepen -Overheidssectoren.
Singapore & Maleisië april – 4 mei. Oriëntatie Inhoud studiereis 3 weken lang met bestemming buiten Europa Half studie-gerelateerde activiteiten:
Jan De Moor, voorzitter De toekomst van de openbare woonzorgcentra. 1 11/10/2012 Healthcare: De toekomst van de openbare woonzorgcentra.
"Universiteiten bouwen voor een onbekend bedrag databanken met proefschriften en andere publicaties van hun personeel. De inrichting van deze ‘repositories’
1 WEBWIJZER MEDISCHE BIBLIOTHEEK (collectie bewegingswetenschappen) DE MEDISCHE BIBLIOTHEEK: Studeren in de bieb Openingstijden Boeken lenen Kopiëren,
De financiële functie: Integrale bedrijfsanalyse©
MARktSTUDIE commercialisatie snoekbaars
1 © GfK 2014 | Supermarktkengetallen | augustus 2014.
1 Week 38/ /11/ Voor oktober vrezen velen onder ons een crash Wat denken wij?? Voor de VS zien we weinIg kans van een crash gezien.
24/11/ DE ADVIEZEN VAN BEURSMAKELAAR BERNARD BUSSCHAERT Week Stemkeuze is Vooral je eigen belang nastreven Spaarders vergeten dit soms.
Informatievaardigheden Ecologie-2 (NCP-20503) september/oktober 2012 Corrie van Zeist, Liza Bruggenkamp, Marco van Veller, Wouter Gerritsma en Ans Brouwer.
1 DE ADVIEZEN VAN BEURSMAKELAAR BERNARD BUSSCHAERT Week Us$ stijgt en de VS markten en grondstoffen markten+ obligatie markten storten ineen.
1 DE ADVIEZEN VAN BEURSMAKELAAR BERNARD BUSSCHAERT Week
3/23/2015 | 1 Bibliotheekinstructie Klassieken en Oude Geschiedenis.
1 DE ADVIEZEN VAN BEURSMAKELAAR BERNARD BUSSCHAERT Week
Informatievaardigheden NCP Ecologie II Corrie van Zeist, Marco van Veller, Ans Brouwer en Wouter Gerritsma Bibliotheek Wageningen UR September 2009.
Informatievaardigheden NCP Ecologie II
Informatievaardigheden NCP Ecologie II
Cross-national, cross-cultural OB research: advances, gaps, and recommendations Tsui, Nifadkar, & Ou (2007) Journal of Management, 33,
1 DE ADVIEZEN VAN BEURSMAKELAAR BERNARD BUSSCHAERT Week
Evidence-Based Medicine
Informatievaardigheden Feedback BPE Marja Maclaine Pont Bibliotheek Wageningen UR 30 september 2010.
Informatievaardigheden Feedback BPE Marja Maclaine Pont Bibliotheek Wageningen UR 29 september 2011.
Informatievaardigheden Introductie BPE-10806
Bibliotheekintroductie UA-bibliotheek Campus Drie Eiken Oktober 2007 Marjan Andries- Barbara Lejeune.
INFORMATIEVAARDIGHEDEN SAW B.Wydooghe L. Gheysen C. Neckebroeck.
1| library | library Pure – introductie.
Vlaams Academisch Bibliografisch Bestand. VABB? Lijst van wetenschappelijke publicaties van onderzoekers in Vlaamse universiteiten die niet in Web of.
EBM = Evidence Based Medicine. EBM (1)  Toepassen van een bepaalde methode, werkwijze voor het verzamelen van literatuur  Beoordelen en interpreteren.
Databank ABI Inform en Proquest
ISNI: rol in de metadataketen
Rapport evaluatie proactieve flux V.T.
Transcript van de presentatie:

Onderzoek naar auteursidentificatie Researcher ID Onderzoek naar auteursidentificatie Sarah Heeffer Bart Thijs Wolfgang Glänzel

Structuur Inleiding Auteursidentificatie in bibliografische databanken Problemen Oplossingen Voor- en nadelen Thomson Reuters’ ResearcherID Methoden Resultaten Conclusies

Inleiding De evaluatie van onderzoeksoutput speelde zich de laatste decennia vooral af op het macro- en mesoniveau. Onderzoeksresultaten werden eerst verbonden met landen, dan met regio’s en vervolgens met instellingen. Laatste jaren toegenomen interesse en vraag van beleidsmakers naar analyses op microniveau: Onderzoeksresultaten van individuele wetenschappers en samenwerkingen tussen wetenschappers worden in detail gevolgd door wetenschapsbeleid, universiteiten,...

Inleiding Om tegemoet te komen aan stijgende vraag is juiste auteursidentificatie belangrijk: Auteur toewijzen aan juiste affiliatie en publicaties Bibliometrische micro-analyses: evaluatie van onderzoeksoutput van individuen en onderzoekersgroepen Studies op lange termijn : auteurs die van instelling, land of naam veranderen (mobiliteit), en auteur-zelfcitaties De identificatie van individuele auteurs is moeilijk en blijft nog steeds een uitdaging. Om auteurs met de juiste affiliatie en publicaties te kunnen linken. Zo krijgen we correcte gegevens die als bouwstenen dienen voor verder onderzoek … Bouwstenen voor verder onderzoek zoals bibliometrische micro-analyses waarbij we onderzoeksoutput van individuen en onderzoekersgroepen kunnen evalueren Voor studies op Lange termijn: om auteurs te kunnen volgen die van instelling, land of naam veranderen Auteur-zelfcitaties verbeterd resultaat

Problemen bij identificatie van auteurs Eén persoon – meerdere namen (synoniem) Spellingsvarianten: vb. umlaut, transliteratie, opsplitsing lidwoorden Tikfouten, verschillende initialen Verandering van naam (door huwelijk, geloof, …) Databank Variant 1 Variant 2 Variant 3 Umlaut Glänzel Glanzel Glaenzel Transliteratie 王悦 Wang, Y Splitsing lidwoorden Van De Broek, I Broek, I Vande / Broek, IV Vandebroek, I Initialen Wemans, Andre Wemans, ADV Wemans, A Huwelijk Petre, Camelia Stanciu, Camelia Camelia, Stanciu Databank VANRAAN, AFJ VanRaan, AFJ Van Raan, AFJ Databank: door verandering techniek – verandert ook de naamweergave Uitgeverij geeft namen soms ook fout weer

Problemen bij identificatie van auteurs Verschillende personen met dezelfde naam (homoniem) Veelvoorkomende namen, zoals Smith D., Janssens, J., Wang, Y., … Onvolledig profiel Geen volledige voornaam Geen link met affiliatie (instelling, stad, land) Ontbrekend, onvolledig of onjuist adres Onduidelijk of geen e-mailadres Verandering van tewerkstellingsplaats (mobiliteit) Onduidelijk e-mailadres: Gmail, hotmail.com = geen link met land of instelling Uitgeverij geeft namen soms ook fout weer Omdat niet alle info uit de publicatie zelf kan gehaald worden, is er nood aan externe informatie, geleverd door auteur zelf (of instantie die het correct verzamelt)

Oplossingen Unieke identificatie per auteur in verschillende systemen: ResearcherID (A-1234-2008): Web of Science (Thomson Reuters) Auteur zelf verantwoordelijk voor aanmaak en onderhoud van profiel AuthorID: Scopus (Elsevier) (°2006) Geautomatiseerd systeem met feedback mogelijkheid PubMed Author ID (US National Library of Medicine (NCBI)) (°2012) FRIS Onderzoeksportaal (Flanders Research Information Space) ORCID (Open Researcher & Contributor ID) (Online oktober 2012) Internationaal, interdisciplinair, overkoepelend, open, non-profit initiatief Compatibel met andere ID’s (Researcher ID, Scopus Author ID, PubMed) Link met publicaties, fondsen, patenten en databanken. Databanken = commercieel PubMed-Fris = initiatief vd overheid (PubMed = enkel medische vakgebieden)+(Fris = ‘nationaal/Regionaal’. Portaal om: Onderzoekers, Publicaties, onderzoeksprojecten en organisaties te zoeken) Orcid = non-profit Bottom-Up = RID – PubMed – ORCID (PubMed= registratie via MyNCBI, open voor andere ID’s) Top-Down = Scopus Author ID - FRIS

Voor- en nadelen van ID-systemen Voordelen Namen = unieke personen Juiste link tussen auteurs en publicaties, instellingen, landen Betrouwbaarheid van resultaten Micro-analyse, citatie-analyse Nadelen Verschillende databanken = verschillende ID’s Niet alle auteurs hebben een ID Als auteur verantwoordelijk is voor eigen ID: geen up-to-date informatie, dubbele ID’s (TR) Geautomatiseerd systeem (SCOPUS): minder controle door auteur zelf, probleem met validatie en betrouwbaarheid Voordelen = in ideale situatie  of situatie ideaal is zullen we later weten Administratieve overlast voor auteurs: alle publicaties claimen, informatie up-to-date houden Validatie : we weten niet of de auteur de publicatielijst heeft gecontroleerd en gevalideerd

Thomson Reuters’ ResearcherID (RID) Onze uitgebreide databank geeft ons de mogelijkheid om een diepgaande analyse uit te voeren op de auteursidentificatie van Thomson Reuters: ResearcherID Hoe betrouwbaar is het ResearcherID-bestand? Wat is de verhouding van auteurs met en zonder RID? Zijn er nationale en vakspecifieke patronen te vinden in de publicaties? Zijn de RID’s representatief voor het hele auteursbestand in de Thomson Reuters Web of Science databank?

Methoden ResearcherID’s van 8 landen opgehaald uit online WoS België, Nederland, Duitsland, Verenigd Koninkrijk, Zwitserland, Oostenrijk, Hongarije en China Gedownloade documenten hebben ten minste: 1 adres van het opgevraagde land en 1 auteur met RID De auteur(s) met RID zijn niet noodzakelijk verbonden met het land. Periode: 2009 – 2011 Artikels, Letters, Reviews en Proceedings Papers Alle publicaties zijn toegewezen aan ten minste een vakgebied Waarom online WOS: RID’s zitten niet in onze ECOOM-databank Waarom 2009-2011: omdat we de link auteur-land pas hebben vanaf 2009 en omdat we de data van 2012 nog aan het verwerken zijn

Koppeling van Auteursnaam Koppeling van Onderzoekersnaam (RID) met de juiste Auteursnaam op publicatie op basis van UT, familienaam en eerste initiaal: UT RID RID-naam 000262024800086 A-4904-2011 Janssens, Jozef FK 000258231800013 B-4805-2009 Peeters, Pascal UT NR Auteursnaam 000262024800086 1 Koning, C 2 Dubois, P 3 Wang, Z 4 Janssens, J Komt niet altijd overeen: universiteiten, student die publicaties voor univ moest claimen is niet de auteur, maar wel > 500 publ

Koppeling van adres en land RID-auteurs gekoppeld aan landen op basis van naam en adres RID’s die niet tot de geselecteerde landen behoren zijn verwijderd Alle auteurs binnen een land = alle unieke combinaties familienaam en eerste initiaal toegewezen aan het land UT RID RID-naam 000262024800086 A-4904-2011 Janssens, Jozef FK 000258231800013 B-4805-2009 Peeters, Pascal UT Auteur Land 000262024800086 Koning, C Nederland Dubois, P Frankrijk Wang, Z China Janssens, J België In een latere fase in de studie hebben we alle auteurs binnen een land nodig als referentiepunt / die verzameling van alle auteurs wordt gedefinieerd als alle unieke combinaties familienaam en 1ste initiaal. Andere auteurs gekoppeld aan land op basis van familie naam + 1ste initiaal (homoniemen! Niet opgekuist!)

Resultaten De opkuis van de RID-data bracht aan het licht dat: Overgrote meerderheid (92%) van de koppeling tussen RID en auteursnaam op publicatie correct is Overige 8%: Instituten, universiteiten en overheidsinstanties Onderzoekers die niet de auteur van publicatie zijn Ongeldige karakters Speciale naamvarianten Auteurs meerdere RID’s creëren en ook gebruiken op een publicatie We hebben voor 92% van de RID’s een perfecte match gevonden met de auteursnaam op de publicatie Overige 8% zijn RID-namen van … (zie volgende slide met voorbeelden)

Voorbeelden Type probleem Voorbeeld RID-naam Chinese karakters 仪, 明伟 仪, 明伟  Andere tekens ň˜ / Å›½Æ ‹ / **** / … Titel in de naam Dr., Prof., St. Dubbele namen anders gesplitst BERGEAAS KUUTMANN, ELIN = Kuutmann, EB (Kuutmann, E. Bergeaas) Verandering van naam STANCIU, Camelia --> PETRE, Camelia Voorzetsels (Van, De) anders gesplitst Vande Broek, I / Broek, I Vande Jaartal voor instituutnaam 2008, IBSAL Instituten, universiteiten, overheden ZHEJIANG UNIVERSITY, DEP. OPTICAL ENG. 8% uit dataset weggelaten. We zouden dit nog kunnen verfijnen door Prof. Eruit te filteren, maar niet alles is op te lossen

Aandeel RID-auteurs en publicaties met RID per land (3 jaar) Gemiddeld heeft 40-50% van auteurs op een paper een RID Aandeel publicaties met een RID schommelt tussen 12% (Oostenrijk en VK) en 21% (Hongarije en NL) Aandeel auteurs met een RID schommelt tussen 20 en 30%: Hongarije en NL: 1/3 van auteurs hebben RID Duitsland en Zwitserland: 1/4 van auteurs hebben RID

Gemiddeld aantal publicaties van RID-auteurs vs. alle auteurs per land (op 3 jaar) Gem. aantal publicaties van RID-auteurs hoger dan dat van alle auteurs In China hebben alle auteurs hoger aantal publicaties (homoniemen!!) Meest productieve RID-auteurs in CHN, NLD, AUT, DEU en BEL (7 papers) <> Gemiddeld publiceren alle auteurs 3‒4 papers … (op 3 jaar tijd!) RID-getal = onderschatting <> alle auteurs = overschatting

China = niet in deze berekening opgenomen !!! RID-auteurs publiceren meer in vergelijking met alle auteurs (behalve bij fysica) Laagste aantal publicaties: Wiskunde en sociale wetenschappen gevolgd door biomedisch onderzoek en ingenieurswetenschappen RID-auteur is actief in gemiddeld 2,5 vakgebieden en alle auteurs in gemiddeld 2,2 vakgebieden RID-auteur publiceert gemiddeld over alle vakgebieden 6,87 artikels waar alle auteurs er 4,71 publiceren Leuven-Budapest classificatie schema: A: Agriculture & environment; B: Biosciences (general, cellular & subcellular biology; genetics); C: Chemistry; E: Engineering; G: Geosciences & space sciences; H: Mathematics; I: Clinical & experimental medicine I (general & internal medicine); M: Clinic. & experim. med. II (non-internal medicine specialties); N: neuroscience & behavior; O: Social sciences II (economical & political issues); P: Physics; R: Biomedical research; S: Social sciences I (general, regional & community issues); Z: Biology (organismic & supraorganismic level)

Gemiddeld aantal publicaties van RID-auteurs vs Gemiddeld aantal publicaties van RID-auteurs vs. alle auteurs per vakgebied Om nationale verschillen in publicatiegedrag te overstijgen: analyse van publicaties per vakgebied China is niet in deze berekening opgenomen (vertekening) RID-auteurs publiceren meer in vergelijking met alle auteurs (behalve bij fysica) Laagste aantal publicaties: Wiskunde en sociale wetenschappen gevolgd door biomedisch onderzoek en ingenieurswetenschappen RID-auteur is actief in gemiddeld 2,5 vakgebieden en alle auteurs in gemiddeld 2,2 vakgebieden

Relative frequency of publication activity of RID authors (bars) vs. all authors (line) 43.1% van alle auteurs publiceerden enkel 1 artikel tgo 21.7% van de RID-auteurs. 10% van de RID-auteurs publiceren >15 artikels tgo 6% van alle auteurs RID-standaard = NIET standaard van ALLE auteurs en dus blijkt RID niet representatief

Conclusies ResearcherID helpt bij de identificatie van auteurs en is noodzakelijk om namen in andere talen te kunnen identificeren (homoniemen). Toekenningen op basis van ReseacherID kunnen niet veralgemeend worden naar alle publicaties. Voorlopig is de ResearcherID nog niet voldoende representatief voor professioneel bibliometrisch gebruik. Registratie is momenteel nog vrij laag en verschilt per land. RID is niet uniek en niet altijd persoonsgebonden. Profiel RID-auteurs komt niet overeen met dat van alle auteurs (productiviteit). Gebrek aan controleorgaan (TR): verantwoordelijkheid ligt bij eindgebruiker die analyse uitvoert Verdere ontwikkelingen blijven we opvolgen ... ResearcherID helpt bij de identificatie van auteurs en is zeker noodzakelijk om auteurs beter te kunnen identificeren (ten gevolge van homoniemen en andere problemen) Naamvarianten van RID’s NIET bruikbaar! Toch is gebleken dat de betrouwbaarheid … nog niet volstaat