Badacz chce sprawdzić, czy brak snu faktycznie pogarsza pamięć. Wykorzystuje tę samą listę słów, ten sam protokół snu i identyczne instrukcje, co w słynnym badaniu sprzed roku.
Replikacja bezpośrednia. Cel: sprawdzenie rzetelności oryginału poprzez wierne odtworzenie wszystkich warunków 1:1.
W artykule czytamy: „Próbki podgrzano, a następnie pozostawiono do ostygnięcia w standardowych warunkach”. Nie podano temperatury ani czasu trwania procesu. Omów sedno grzechu.
Błąd: Niekompletny opis metod. Taki opis uniemożliwia innemu badaczowi odtworzenie eksperymentu (brak parametrów fizycznych).
Badacz krzyczy: „Mamy to! p < 0,05!”. W całym artykule nie znajdziemy jednak informacji o tym, jak silna była ta zależność (brak d Cohena). Dlaczego jest to ważne aby raportować obie wartości?
Błąd: Brak raportowania wielkości efektu. Istotność statystyczna mówi tylko, że wynik nie jest dziełem przypadku, ale nie mówi, czy jest on ważny w praktyce.
Przykładem jakiej praktyki jest sytuacjia: Czasopisma naukowe chętniej publikują nowe, sensacyjne odkrycia niż "nudne" powtórzenia starych badań.
Publication Bias (Stronniczość publikacyjna). Redakcje odrzucają replikacje (zwłaszcza te z wynikiem negatywnym), co tworzy iluzję, że dana teoria jest nienaruszalna, bo nikt nie publikuje dowodów przeciwko niej.
Badacz publikuje wyniki testów medycznych na ludziach, ale zapomina wspomnieć, czy uzyskał na to zgodę Komisji Bioetycznej. Gdzie badacz popełnił błąd?
Naruszenie: Brak informacji o zgodach etycznych (IRB). Każde badanie z udziałem ludzi musi mieć potwierdzoną opiekę etyczną.
Zamiast badać „styl przywiązania” ankietą (jak w oryginale), naukowcy zapraszają pary do laboratorium i filmują ich reakcje w stresującej sytuacji, by sprawdzić, czy teoria Hazan i Shavera nadal się potwierdza.
Replikacja koncepcyjna. Testowanie tej samej koncepcji teoretycznej, ale przy użyciu zupełnie innej operacjonalizacji (obserwacja zamiast ankiety).Replikacja koncepcyjna.
Autor pisze: „Do pomiaru użyto profesjonalnego oprogramowania do analizy obrazu”. Nie wymienia nazwy programu, jego wersji ani parametrów, na których pracował. Omów sedno grzechu.
Błąd: Nieprecyzyjne raportowanie narzędzi. Modele sprzętu i wersje software'u (np. wersji skryptów) są kluczowe dla powtarzalności wyników.
Naukowiec udostępnia wyniki, ale masa badanych obiektów podana jest w „funtach”, a temperatura w „stopniach X” – skali, którą sam wymyślił i nie opisał jej przelicznika. Gdzie badacz popełnił błąd?
Błąd: Użycie niestandardowych jednostek. Naruszenie zasady komunikatywności i utrudnienie porównania wyników z literaturą światową.
Badacz chce powtórzyć eksperyment z lat 70. dotyczący agresji, ale współczesna Komisja Etyczna odmawia zgody na procedurę. Czego wynikiem jest taka postawa KE?
Zmiana standardów etycznych. Wiele klasycznych badań (np. eksperyment Milgrama czy Zimbardo) jest dziś niemożliwych do replikacji bezpośredniej, ponieważ współczesna nauka kładzie większy nacisk na dobrostan uczestnika.
Wykres w artykule pokazuje ogromny wzrost wyników, ponieważ oś Y zaczyna się od 90, a kończy na 100. Gdyby zaczynała się od 0, wzrost byłby ledwo widoczny. Czego dopuścił się badacz?
Błąd: Manipulacja wizualna (skalą wykresu). Celowe lub nieświadome wyolbrzymianie różnic poprzez niestandardowe kadrowanie osi statystycznych.
Zespół analizuje wymiary kulturowe Hofstedego (indywidualizm vs kolektywizm). Robią to poprzez metaanalizę i serię nowych badań, celowo dobierając kraje o skrajnie różnej historii, by wyznaczyć zasięg teorii.
Replikacja systematyczna. Wykorzystanie podejścia kombinacyjnego, aby zbadać, w jakich populacjach teoria działa, a w jakich przestaje (testowanie granic).
Po zebraniu danych okazało się, że „Hipoteza A” nie wyszła. Badacz zauważył jednak inny ciekawy wynik i w artykule napisał, że to właśnie ten efekt był jego głównym celem od początku. Omów sedno grzechu.
Błąd: HARKing. Formułowanie hipotez po poznaniu wyników. Jest to naruszenie rzetelności, ponieważ nauka polega na testowaniu przewidywań, a nie ich dopasowywaniu.
Zespół badawczy publikuje artykuł, ale odmawia udostępnienia surowych danych innym naukowcom, twierdząc, że „dane są ich własnością i nikt nie ma prawa ich sprawdzać”. Czy zespół ma rację po swojej stronie?
Jest to sytuacja naruszenia zasad otwartej nauki (Open Data). Brak surowych danych w repozytoriach (np. OSF) uniemożliwia weryfikację obliczeń i wykrycie błędów.
Jeśli replikacja koncepcyjna daje inne wyniki niż oryginał, badacz nie wie, czy to teoria jest błędna, czy nowa metoda była słaba. Z czego wynika problem?
Trudności w interpretacji wyników. Każda zmiana metody wprowadza nowe zmienne zakłócające. Niepowodzenie replikacji koncepcyjnej nie obala teorii automatycznie – może po prostu oznaczać, że nowa procedura była źle dobrana.
Badacz przed rozpoczęciem zbierania danych wysyła swój plan analizy do niezależnego portalu, „mrożąc” hipotezy, aby nikt nie zarzucił mu manipulacji wynikami później. Czy taka praktyka jest dobrze postrzegana w środowisku badawczym? Wyjaśnij.
Dobra praktyka: Pre-rejestracja (Pre-registration). Kluczowe narzędzie zapobiegające p-hackingowi i HARKingu.
W 2008 roku badacze w USA odkryli, że trzymanie ciepłego napoju sprawia, że oceniamy nowo poznaną osobę jako „cieplejszą” emocjonalnie. Inny zespół postanawia powtórzyć to badanie 15 lat później w małej wiosce w Tybecie, używając tej samej procedury, ale zamiast kawy (która nie jest tam popularna) podają lokalną gorącą herbatę maślaną.
Replikacja Koncepcyjna z elementem Różnic Kontekstowych.
Dlaczego to nie jest replikacja bezpośrednia? Ponieważ zmieniono napój (herbata zamiast kawy) oraz radykalnie zmieniono grupę kulturową.
Klucz do zrozumienia: Gdyby badacze uzyskali inny wynik niż w USA, nie wiedzielibyśmy, czy:
Efekt w ogóle nie istnieje (oryginał był błędem).
Herbata działa inaczej niż kawa.
W kulturze tybetańskiej metafora „ciepła” nie kojarzy się z życzliwością tak, jak na Zachodzie.
Badacz analizował wpływ nowej diety. W tabeli nr 1 podał, że średnia waga uczestników to 80 kg, ale w podsumowaniu wyników na końcu tekstu napisał już o 75 kg. Omów sedno grzechu.
Błąd: Niespójne raportowanie wyników. Błędy edytorskie lub brak dbałości o spójność danych w różnych sekcjach artykułu podważają wiarygodność całości.
Autor twierdzi: „Nasza terapia leczy depresję w 100%”, podczas gdy dane pokazują jedynie statystycznie mniejszą liczbę objawów u niewielkiej grupy osób w porównaniu do placebo. Czego dopuścił się autor?
Błąd: Nadmierne uogólnianie wyników. Wyciąganie wniosków, które idą znacznie dalej, niż pozwalają na to zebrane twarde dane.
Naukowcy próbują powtórzyć badanie nad konformizmem z lat 50. (Asch). Mimo identycznej procedury, współcześni studenci reagują zupełnie inaczej niż ich rówieśnicy sprzed dekad. O jakim wyzwaniu mowa?
Wyzwanie: Różnice kontekstowe (zmiany kulturowe i historyczne).
Dlaczego to problem? Czas i ewolucja społeczeństwa to zmienne, których nie da się "zamrozić". Jeśli wynik się zmienia, nie musi to oznaczać błędu oryginału, a jedynie to, że zjawisko nie jest stabilne historycznie.
Zespół badawczy publikuje wyniki testów nowej terapii depresji. W artykule opisano efekty końcowe, ale zabrakło dokładnego schematu przepływu uczestników: nie wiadomo, ile osób zgłosiło się do badania, ile zostało odrzuconych na wstępie, a ile przerwało terapię w trakcie jej trwania.
Naruszenie standardu CONSORT.
Dlaczego to błąd? Wytyczne CONSORT (Consolidated Standards of Reporting Trials) wymagają przedstawienia tzw. diagramu przepływu (flow diagram). Bez informacji o tym, ile osób „wypadło” z badania (atrycja), nie można rzetelnie ocenić, czy terapia jest bezpieczna i czy wyniki nie są zawyżone (np. przez to, że badanie ukończyli tylko ci, u których terapia zadziałała).
Klucz do replikacji: Brak precyzyjnego opisu rekrutacji i selekcji uczestników uniemożliwia innemu badaczowi dobranie identycznej grupy i rzetelne powtórzenie procedury medycznej.
Badacze Craik i Tulving wykazali, że głębokie przetwarzanie informacji (myślenie o znaczeniu słowa) pomaga lepiej zapamiętywać. Kolejny zespół (Eysenck & Eysenck) postanawia to sprawdzić, ale wprowadza do badania dodatkowe „pokrętła”: zmieniają to, jak rzadkie są słowa oraz jak bardzo różnią się od siebie nawzajem, aby zobaczyć, czy te czynniki zmienią siłę pierwotnego efektu.
Replikacja Systematyczna.
Ponieważ badacze stosują tzw. podejście kombinacyjne. Nie tylko kopiują oryginał, ale celowo i planowo „psują” lub „podkręcają” warunki (zmieniają częstotliwość i odmienność słów).
Klucz do zrozumienia: Celem nie jest sprawdzenie, czy Craik miał rację, ale testowanie granic teorii. Badacze chcą wiedzieć: „Czy głębokie przetwarzanie działa zawsze, czy może tylko przy pospolitych słowach?”. To pozwala na walidację teorii w szerszym spektrum sytuacji.
Cały opis procedury jest napisany w formie: „Dokonano pomiaru, sprawdzono wyniki, zaobserwowano trend”. Nigdzie nie pojawia się informacja, kto dokładnie i w jakiej roli wykonywał czynności. Omów sedno grzechu.
Błąd: Nadmierne użycie strony biernej. Utrudnia to ocenę „sprawstwa” (agency). Nie wiadomo, czy pomiaru dokonał automat, student, czy doświadczony ekspert, co ma znaczenie przy replikacji.
Naukowiec przygotowuje dane tak, aby były łatwe do znalezienia, dostępne dla każdego, możliwe do odczytania przez różne programy i gotowe do ponownego wykorzystania.
Dobra praktyka: Zasady FAIR. Skrót od Findable, Accessible, Interoperable, Reusable – złoty standard nowoczesnego raportowania naukowego.
Badacz chce sprawdzić rzetelność kosztownego badania fMRI. Okazuje się jednak, że autor oryginału nie udostępnił surowych danych ani kodu w repozytorium (np. OSF), a ponowne zebranie grupy 200 osób jest zbyt drogie dla nowego zespołu. Dlaczego to problem?
Wyzwania: Ograniczenia zasobów oraz brak transparentności (Open Data).
Dlaczego to problem? Zgodnie z plikiem o raportowaniu, brak surowych danych i wysokie koszty (sprzęt, czas, uczestnicy) tworzą "mur" nie do przejścia. Badanie staje się niereplikowalne nie z winy nauki, ale z powodu barier systemowych i braku otwartości autorów.
Naukowiec bada wpływ nowej diety na koncentrację. Po zebraniu danych okazuje się, że ogólny wynik jest nieistotny (p = 0,12). Badacz zaczyna więc „wycinać” dane: usuwa osoby powyżej 40. roku życia, zmienia sposób liczenia punktów w teście i sprawdza wynik tylko dla mężczyzn. Po dziesiątej próbie manipulacji w końcu uzyskuje wynik p = 0,04 i tylko ten wynik opisuje w artykule.
Błąd: p-hacking (selektywne raportowanie i manipulacja danymi).
Dlaczego to błąd? p-hacking to proces „torturowania danych tak długo, aż zaczną zeznawać”. Polega na sprawdzaniu wielu kombinacji analiz i raportowaniu tylko tej jednej, która dała wynik istotny statystycznie ($p < 0,05$), przy jednoczesnym ukrywaniu wszystkich nieudanych prób.
Klucz do replikacji: Takie badanie jest praktycznie niemożliwe do zreplikowania. Wynik p = 0,04 uzyskany drogą p-hackingu jest najprawdopodobniej dziełem przypadku (fałszywie dodatnim), a nie realnym zjawiskiem. Inny badacz, wykonując rzetelną analizę na całej grupie, nie uzyska tego samego efektu.