Bruk av tekstmining for å redusere arbeidsmengden ved systematiske oversikter

Takket være at jeg fikk reisestipend fra SMH til å delta på EAHILs workshop i Edinburgh i juni, kunne jeg delta på seminaret «Reducing Systematic Review workload using text mining: opportunities and pitfalls», ledet av James Thomas. I forkant hadde vi fått tips om å lese artikkelen han er medforfatter av; O’Mara-Eves A. (Et al.) Using text mining for study identification in systematic review of current approaches.
Dette med «i forkant…» er for øvrig nyttig å merke seg i EAHIL-sammenheng; de siste par ukene før konferansen drysset det inn artikler som skulle være lest, og YouTube-snutter som skulle være sett, før deltakelsen fra flere av workshop-lærerne. 

Jeg skal være ærlig nok til å si at jeg trodde tekstminingen skulle være til hjelp under søkedelen av jobben, men fokus viste seg å være på hva man gjør ETTER at man er ferdig å søke.  Folkene som jobbet med dette snakket om virkelig STORE treffmengder, gjerne mange tusen. Det var jo minst like spennende, jeg har flere ganger sendt folk av gårde med mange flere treff enn jeg unte dem å skumme gjennom på en helg. Dermed er verktøy for å gjøre den arbeidsbyrden mindre, definitivt verdt å vite om!

Målene med å bruke tekstmining kan være å få søkene mer sensitive uten at gjennomsynsmengden blir overveldende, eller å opprettholde sensitivitet selv om du har reduserte ressurser.

De tre verktøyene vi hørte om, var EPPIreviewer 4, Microsoft Azure og R, et programmeringsspråk for statistikere. Vi ble vist hvordan prosessen foregikk med Eppireviewer, som var rimeligste alternativ. En infovideo om Eppireviewer kan du se på hjemmesiden deres. En del av seminaret gikk med til gruppediskusjon i forholdt til fordeler og ulemper ved bruk av denne teknologien. Ett av punktene flere hang seg opp i var om man bare brukte mer tid på teknologien, men svaret der var at man kunne regne med 30-70% spart tid i arbeidsinnsats.

Man kan bruke tekstmining for å prioritere rekkefølgen på det som skal gjennomgås ved å «trene» verktøyet med et utvalg av artiklene. Et menneske går gjennom og inkluderer og ekskluderer, og verktøyet identifiserer ord i de to utvalgene. Basert på dette vil verktøyet så sortere hele lista etter sannsynlighet for inklusjon for deg. Alt etter hvor (og om) du kuttet gjennomgangen når det var for mye irrelevant, ble dette regnet som trygg bruk.

Man kan også bruke tekstmining om man bare har ett menneske tilgjengelig for gjennomsyn, og så bruke et tekstminingsverktøy som «den andre screeneren». Dette ble også regnet som grei bruk, så lenge man var bevisst hva man gjorde.

En tredje variant er å la verktøyet sortere direkte til inklusjon og eksklusjon for deg, med en (semi)-automatisk klassifisering i relevant eller irrelevant. Dette ble sett på som «lovende» innen de mest tekniske og kliniske feltene, men det må mer utprøving til på andre felt før metoden kan tas i bruk slik.

Tekstmining i forhold til søkeprosessen var vi så vidt innom på slutten. Her var det flere muligheter:

  • VOSviewer  kan brukes for å oppdage klynger av forfattere eller intitusjoner innen publiseringen, i tillegg til at det er et brukbart verktøy også i screeningprosessen.
  • Lingo3G er en gruppe tjenester, samler blant annet treffene dine i emnegrupper.
  • Carrot2.org  er såvidt jeg skjønte gratisvarianten av deler av Lingo3G.
  • TerMine hjelper deg å lage / ekstrahere potensielle emneord fra en tekst.

 

 

 

 

Skriv en kommentar

Fyll inn i feltene under, eller klikk på et ikon for å logge inn:

WordPress.com-logo

Du kommenterer med bruk av din WordPress.com konto. Logg ut / Endre )

Twitter picture

Du kommenterer med bruk av din Twitter konto. Logg ut / Endre )

Facebookbilde

Du kommenterer med bruk av din Facebook konto. Logg ut / Endre )

Google+ photo

Du kommenterer med bruk av din Google+ konto. Logg ut / Endre )

Kobler til %s