Isang Pangangatwiran Maaaring Mali ang Pag-aaral ng Siyentipiko

May ay isang krisis sa pagsasama-sama sa agham - hindi natukoy na "maling mga positibo" ay lumalabag kahit ang aming mga nangungunang journal sa pananaliksik.

Ang isang maling positibo ay isang claim na ang isang epekto ay umiiral kapag sa katunayan ito ay hindi. Walang nakakaalam kung anong proporsyon ng nai-publish na mga papeles ay naglalaman ng mga hindi tama o sobra-sobra na mga resulta, ngunit may mga palatandaan na ang proporsyon ay hindi maliit.

Ang epidemiologist na si John Ioannidis ang nagbigay ng pinakamahusay na paliwanag para sa hindi pangkaraniwang bagay na ito sa isang sikat na papel sa 2005, provocatively na may pamagat na "Bakit hindi tama ang karamihan sa mga nai-publish na resulta ng pananaliksik". Isa sa mga dahilan na ibinigay ni Ioannidis sa napakaraming mga maling resulta ay tinatawag na "p pag-hack ", na nagmumula sa mga presyur ng mga mananaliksik upang makamit ang statistical significance.

Ano ang statistical significance?

Upang makakuha ng mga konklusyon mula sa data, ang mga mananaliksik ay karaniwang umaasa sa pagsubok ng kabuluhan. Sa madaling salita, nangangahulugan ito ng pagkalkula ng "p halaga ", na kung saan ay ang posibilidad ng mga resulta tulad ng atin kung walang tunay na walang epekto. Kung ang p ang halaga ay sapat na maliit, ang resulta ay ipinahayag na makabuluhan sa istatistika.

Ayon sa kaugalian, a p halaga ng mas mababa kaysa sa. 05 ay ang criterion para sa kabuluhan. Kung nag-uulat ka ng isang p<.05, ang mga mambabasa ay malamang na maniwala na nakakita ka ng isang tunay na epekto. Marahil, gayunpaman, talagang walang epekto at naiulat mo ang isang maling positibo.


innerself subscribe graphic


Maraming mga journal ay mag-publish lamang ng mga pag-aaral na maaaring mag-ulat ng isa o higit pang makabuluhang mga epekto sa istatistika. Mabilis na matutunan ng mga mag-aaral na graduate na ang pagkamit ng gawa-gawa p

Ang presyur na ito upang makamit pp pataga.

Ang pang-akit ng p taga

Upang ilarawan p pag-hack, dito ay isang hypothetical na halimbawa.

Kamakailan ay nakumpleto ni Bruce ang PhD at nakarating siya ng isang prestihiyosong grant upang sumali sa isa sa mga nangungunang mga team sa pananaliksik sa kanyang larangan. Ang kanyang unang eksperimento ay hindi gumagana nang maayos, ngunit mabilis na pinipino ni Bruce ang mga pamamaraan at nagpapatakbo ng pangalawang pag-aaral. Mukhang mas maaasahan ito, ngunit hindi pa rin nagbibigay ng isang p mas mababa ang halaga kaysa sa .05.

Kumbinsido na siya ay may isang bagay, Bruce ay nangangalap ng mas maraming data. Siya ay nagpasiya na i-drop ang ilan sa mga resulta, na tumingin malinaw na paraan off.

Pagkatapos ay napansin niya na ang isa sa kanyang mga panukala ay nagbibigay ng isang mas malinaw na larawan, kaya nakatuon siya sa na. Ang ilan pang mga tweaks at sa wakas ay kinilala ni Bruce ang isang bahagyang kamangha-mangha ngunit talagang kagiliw-giliw na epekto na natamo p

Sinubukan ni Bruce na hirap na makita ang epekto nito alam ay nagkukubli sa isang lugar. Naramdaman din niya ang presyur na matamaan p

Mayroon lamang isang catch: diyan ay talagang walang epekto. Sa kabila ng makabuluhang resulta ng istatistika, inilathala ni Bruce ang isang maling positibo.

Nadama ni Bruce na ginagamit niya ang kanyang pang-agham na pananaw upang maipakita ang nagkukubling epekto habang kinuha niya ang iba't ibang hakbang matapos simulan ang kanyang pag-aaral:

  • Nakolekta niya ang karagdagang data.
  • Siya ay bumaba ng ilang data na tila masama.
  • Siya ay bumaba ng ilan sa kanyang mga panukala at nakatuon sa mga pinaka-maaasahan.
  • Sinuri niya ang data ng isang maliit na naiiba at ginawa ng ilang karagdagang mga pag-aayos.

Ang problema ay ang lahat ng mga pagpipiliang ito ay ginawa pagkatapos nakikita ang data. Bruce ay maaaring, unconsciously, ay cherrypicking - pagpili at tweaking hanggang sa makuha niya ang mailap pp

Ang mga istatistika ay may sinasabi: kung pahirap mo ang sapat na data, magkakumpisal sila. Ang mga pagpipilian at mga pag-aayos na ginawa pagkatapos makita ang data ay kaduda-dudang mga kasanayan sa pananaliksik. Ang paggamit ng mga ito, sadyang o hindi, upang makamit ang tamang resulta ng istatistika ay p taga, na isang mahalagang dahilan na inilathala, ang mga makabuluhang resulta ng istatistika ay maaaring maling mga positibo.

Anong sukat ng nai-publish na mga resulta ang mali?

Ito ay isang mahusay na tanong, at isang mapanlinlang na nakakalito. Walang nakakaalam ng sagot, na malamang na naiiba sa iba't ibang larangan ng pananaliksik.

Ang isang malaki at kahanga-hangang pagsisikap upang sagutin ang tanong para sa sosyal at nagbibigay-malay na sikolohiya ay na-publish sa 2015. Pinangunahan ni Brian Nosek at ng kanyang mga kasamahan sa Center for Open Science, ang Replicability Project: Psychology (RP: P) nagkaroon ng 100 na mga grupo ng pananaliksik sa buong mundo ang bawat isa ay nagsasagawa ng maingat na pagtitiklop ng isa sa 100 na nai-publish na mga resulta. Sa pangkalahatan, halos 40 kinopya medyo maayos, samantalang sa paligid ng mga kaso 60 ang pag-aaral ng pagtitiklop ay nakakuha ng mas maliit o mas maliit na mga epekto.

Ang 100 RP: P na mga replikasyong pag-aaral ay nag-ulat ng mga epekto na, sa karaniwan, kalahati lang ang sukat ng mga epekto na iniulat ng mga orihinal na pag-aaral. Ang maingat na isinasagawa ng mga pagtitiklop ay marahil ay nagbibigay ng mas tumpak na mga pagtatantya kaysa sa posibleng p na-hack ang mga orihinal na pag-aaral, upang maipahiwatig namin na ang mga orihinal na pag-aaral overestimated totoo epekto sa pamamagitan ng, sa average, isang kadahilanan ng dalawa. Nag-aalala iyan!

Paano maiiwasan p taga

Ang pinakamahusay na paraan upang maiwasan ang p Ang pag-hack ay upang maiwasan ang paggawa ng anumang pagpipilian o pag-aayos pagkatapos makita ang data. Sa madaling salita, iwasan ang mga kaduda-dudang mga kasanayan sa pananaliksik. Sa karamihan ng mga kaso, ang pinakamahusay na paraan upang gawin ito ay ang paggamit pagpaparehistro.

Hinihiling ng pre-registrasyon na maghanda ka nang maaga sa isang detalyadong plano sa pananaliksik, kabilang ang statistical analysis na ilalapat sa data. Pagkatapos ay i-preregister mo ang plano, na may stamp ng petsa, sa Buksan ang Science Framework o ilang ibang online na pagpapatala.

pagkatapos isakatuparan ang pag-aaral, suriin ang data alinsunod sa plano, at iulat ang mga resulta, anuman ang mga ito. Maaaring suriin ng mga mambabasa ang paunang plano at sa gayon ay magtiwala na ang pagsusuri ay tinukoy nang maaga, at hindi p na-hack. Preregistration ay isang mahirap na bagong ideya para sa maraming mga mananaliksik, ngunit malamang na maging ang paraan ng hinaharap.

Pagtantya sa halip p halaga

Ang tukso sa p Ang tadtarin ay isa sa mga malaking disadvantages ng pag-asa sa p mga halaga. Ang isa pa ay ang psa halip na sinasabi ng isang umiiral na epekto o hindi.

Ngunit ang mundo ay hindi itim at puti. Upang makilala ang maraming mga kulay ng kulay abo ito ay mas mahusay na gamitin kuru-kuro sa halip na p mga halaga. Ang layunin sa pagtantya ay upang tantiyahin ang sukat ng isang epekto - na maaaring maliit o malaki, zero, o kahit na negatibo. Sa mga tuntunin ng kuru-kuro, isang maling positibong resulta ay isang pagtatantya na mas malaki o mas malaki kaysa sa tunay na halaga ng isang epekto.

Kumuha ng isang hypothetical na pag-aaral sa epekto ng therapy. Ang pag-aaral ay maaaring, halimbawa, tantiyahin na ang therapy ay nagbibigay, sa karaniwan, isang 7-point pagbaba sa pagkabalisa. Ipagpalagay na namin kalkulahin mula sa aming data a agwat ng kumpyansa - isang hanay ng kawalan ng katiyakan sa bawat bahagi ng aming pinakamahusay na pagtatantya - ng [4, 10]. Ito ay nagsasabi sa amin na ang aming pagtantya ng 7 ay, malamang, sa loob ng mga 3 point sa scale na pagkabalisa ng tunay na epekto - ang tunay na average na halaga ng benepisyo ng therapy.

Sa ibang salita, ang agwat ng kumpyansa ay nagpapahiwatig kung gaano tumpak ang aming pagtantya. Ang pag-alam ng gayong pagtatantya at ang agwat ng kumpyansa nito ay mas nakapagtuturo kaysa sa anumang p halaga.

Tinutukoy ko ang pagpapalagay bilang isa sa mga "bagong istatistika". Ang mga diskarte sa kanilang sarili ay hindi bago, ngunit ginagamit ang mga ito bilang ang pangunahing paraan upang makakuha ng mga konklusyon mula sa data ay para sa maraming mga mananaliksik ay bago, at isang malaking hakbang pasulong. Tutulungan din nito na maiwasan ang mga distortion na dulot ng p pag-hack.

Tungkol sa Ang May-akda

Geoff Cumming, Propesor Emeritus, La Trobe University

Ang artikulong ito ay orihinal na na-publish sa Ang pag-uusap. Basahin ang ang orihinal na artikulo.

Mga Kaugnay na Libro:

at InnerSelf Market at Amazon