Lessen uit ruimtecommunicatie en AI pakken de reproduceerbaarheidscrisis aan
VIB Bioimaging experts pakken de problemen van reproduceerbaarheid aan door redundantie van metadata om te zetten in een foutcorrectietool, met een beetje hulp van AI.
2 februari 2024
De reproduceerbaarheidscrisis
Een van de kernprincipes van de wetenschappelijke methode is de validatie van resultaten. Om dit te bereiken zouden wetenschappers idealiter hun tests of experimenten opnieuw uitvoeren om te zien of de resultaten van de eerste keer geen toeval waren. Nog beter zou zijn als andere wetenschappers de resultaten onafhankelijk zouden kunnen valideren. Zo kunnen we uitsluiten dat er specifieke (laboratorium)-omstandigheden zijn die de resultaten vertekenen. De onafhankelijke replicatie van wetenschappelijke resultaten is de sterkste aanwijzing die we hebben dat een bevinding iets waars over de werkelijkheid onthult.
Maar om een resultaat te kunnen repliceren, moet het onderzoek erachter ‘reproduceerbaar’ zijn. Om ervoor te zorgen dat onderzoeksresultaten door anderen kunnen worden gereproduceerd, delen wetenschappers hun methoden en protocollen. Dat is echter makkelijker gezegd dan gedaan. Uit een groot onderzoek uit 2016 door het tijdschrift Nature bleek dat meer dan 70% van de onderzoekers moeite heeft om experimenten te reproduceren. Deze reproduceerbaarheidscrisis is het gevolg van factoren als beperkte toegang tot ruwe data, onvoldoende documentatie en – in dit tijdperk van big data – de complexiteit inherent aan het beheren van enorme datasets.
Onder leiding van Tatiana Woller, data expert bij VIB Bioimaging Core Leuven, kijken VIB-onderzoekers nu naar onwaarschijnlijke inspiratiebronnen om de reproduceerbaarheidscrisis aan te pakken: ruimtecommunicatie en AI.
"Op het gebied van bioimaging", zegt Sebastian Munck, Innovatietechnoloog bij de VIB Bioimaging Core Leuven, "hebben verschillende initiatieven en standaarden, met name de FAIR-principes (Findable, Accessable, Interoperable, Reusable), tot doel de kwaliteit van de data te verbeteren, met als verhoopt resultaat, een betere reproduceerbaarheid van het onderzoek. Maar de noodzaak dat data-annotaties aan deze normen voldoen, kan leiden tot zogenaamde metadata-redundantie."
"Dus," vervolgt Tatiana Woller, "waarom zouden we die metadata niet goed gebruiken? In de ruimtecommunicatie wordt metadata-redundantie gebruikt voor foutcorrectie. Wat als we die redundantie in bio-imaging-datadocumentatie kunnen omzetten in een hulpmiddel voor het consolideren van informatie en het verbeteren van de reproduceerbaarheid van bioimaging-experimenten?"
Enter AI
Er is één groot probleem met dit voorstel: tijd. Het lijkt onwaarschijnlijk dat veel onderzoekers de tijd zullen hebben om hun metadata nauwgezet te proeflezen.
"Dit brengt ons bij het laatste stukje van de puzzel", zegt Alexander Botzki, hoofd van VIB Technology Training en lid van het organizered comité voor de vijfde Applied Bioinformatics in Life Sciences conferentie, die heeft bijgedragen aan het onderzoek, "en dat is AI. Meer specifiek, grote taalmodellen zoals die gebruikt door ChatGPT. Hoewel deze modellen hun problemen hebben, ze zijn erg goed in het overnemen van tijdrovende proefleestaken en het creëren van gestructureerde resultaten op basis van verschillende informatiebronnen."
Als proof of concept ontwikkelde het team een workflow waarin GPT-4 laboratoriumnotitieboekjes, metadatabestanden, en publicaties leest. De machine learning-tool controleerde de consistentie tussen de inputs met behulp van vijf trefwoorden met betrekking tot titel, auteurs, onderwerp, methodologie, en repository. Op basis hiervan kan een gestructureerd rapport worden gegenereerd waarin de mate van overeenstemming tussen de vermeldingen wordt geanalyseerd. Dat wordt vervolgens gebruikt om waarschijnlijke fouten te identificeren en te corrigeren.
Een groot bijkomend voordeel van deze methode is dat de veranderende doelstellingen van een project in de loop van de tijd worden gevolgd. Door alle fasen van een onderzoeksproject in de gaten te houden – labnotitieboekjes in het begin, metadata in het midden, en manuscript aan het einde – kan de AI-gebaseerde workflow de documentatie gemakkelijker corrigeren en voltooien via verschillende lagen van openlijk toegankelijke en ontoegankelijke records.
"In wezen is deze aanpak mooi in zijn eenvoud", zegt Woller. "Door de redundantie te combineren met door AI aangedreven proeflezen kunnen onderzoekers rapportagefouten verminderen, de reproduceerbaarheid verbeteren, en uiteindelijk de FAIR-principes op het gebied van bio-imaging beter volgen."
Publicatie
Woller et al. What we can learn from deep space communication for reproducible bioimaging and data analysis. Molecular Systems Biology, 2023.
Want to be kept up-to-date on our biotechnological news and stories? Join our community and subscribe to our bi-monthly newsletter.