Paano Tinutulungan ng mga Computer ang mga Biologist na I-crack ang Mga Lihim ng Buhay

Kapag ang tatlong-bilyong-sulat-haba ng genome ng tao ay na-sequenced, nagmadali kami sa isang bagong "Omics"Panahon ng biological na pananaliksik. Ang mga siyentipiko ay karera ngayon sa pagkakasunud-sunod ng mga genome (lahat ng mga genes) o proteomes (lahat ng mga protina) ng iba't ibang mga organismo - at sa proseso ay tinipon ang napakalaking halaga ng data.

Halimbawa, ang isang siyentipiko ay maaaring gumamit ng mga tool na "omics" tulad ng sequencing ng DNA upang mambiro kung saan ang mga tao na gene ay apektado sa isang impeksyon ng viral flu. Subalit dahil sa ang genome ng tao ay may hindi bababa sa 25,000 genes sa kabuuan, ang bilang ng mga genes na binago kahit na sa ilalim ng tulad ng isang simpleng sitwasyon ay maaaring potensyal na sa libu-libong.

Bagaman ang pagkakasunod-sunod at pagtukoy ng mga gene at mga protina ay nagbibigay sa kanila ng isang pangalan at isang lugar, hindi ito sinasabi sa amin kung ano ang ginagawa nila. Kailangan nating maunawaan kung paano ang mga gene, mga protina at lahat ng bagay sa pagitan makipag-ugnay sa iba't ibang mga biological na proseso.

Ngayon, kahit na ang mga pangunahing eksperimento ay nagbubunga ng malaking data, at ang isa sa mga pinakamalaking hamon ay nakakahamak sa mga may-katuturang resulta mula sa ingay sa background. Tinutulungan tayo ng mga computer na madaig ang bundok na datos na ito; ngunit maaari pa rin nilang magpatuloy sa isang hakbang kaysa sa pagtulong sa amin na magkaroon ng pang-agham na mga pagpapalagay at ipaliwanag ang mga bagong biological na proseso. Ang data science, sa kakanyahan, ay nagbibigay-daan sa pagputol-gilid biological na pananaliksik.

Mga Computer Upang Ang Pagsagip

Kwalipikadong kwalipikado ang mga computer na mahawakan ang napakalaking hanay ng data dahil maaari nilang sabay-sabay na subaybayan ang lahat ng mahahalagang kondisyon na kinakailangan para sa pagtatasa.


innerself subscribe graphic


Kahit na sila ay maaaring sumalamin sa mga kamalian ng tao ang mga ito ay na-program, ang mga computer ay maaaring makitungo nang malaki sa maraming data at hindi sila makiling sa pamilyar, tulad ng mga taong investigator.

Ang mga computer ay maaari ring ituro upang tumingin para sa mga tiyak na mga pattern sa mga pang-eksperimentong hanay ng data - isang konsepto na tinatawag na pag-aaral ng machine, unang iminungkahi sa 1950s, pinaka-kapansin-pansin sa pamamagitan ng dalub-agbilang Alan Turing. Ang isang algorithm na natutunan ang mga pattern mula sa mga set ng data ay maaaring hilingin na gumawa ng mga hula batay sa mga bagong data na ito ay hindi kailanman nakatagpo ng dati.

Ang pag-aaral ng machine ay nagbago ng biological na pananaliksik dahil magagamit na natin ngayon ang mga malalaking hanay ng data at humingi ng mga computer upang makatulong na maunawaan ang batayan ng biology.

Pagsasanay ng mga Computer Upang Mag-isip Sa pamamagitan ng Simulating Utak Proseso

Ginamit namin ang isang kagiliw-giliw na uri ng pag-aaral ng makina, na tinatawag na artipisyal na neural network (ANN), sa aming sariling lab. Ang mga utak ay lubos na magkakaugnay na mga network ng mga neuron, na nakikipag-usap sa pamamagitan ng pagpapadala ng mga pulse ng kuryente sa pamamagitan ng neural na mga kable. Sa katulad na paraan, ang isang ANN ay nagsasamula sa computer ng isang network ng mga neuron habang binubuksan at off ang mga ito bilang tugon sa iba pang mga signal ng neurons.

Sa pamamagitan ng pag-apply ng mga algorithm na gayahin ang mga proseso ng real neurons, maaari naming gawin ang network na matutunan upang malutas ang maraming uri ng mga problema. Gumagamit ang Google ng isang malakas na ANN para sa sikat na ngayon Deep Dream project kung saan maaaring mag-uri-uriin ang mga computer at lumikha ng mga larawan.

Pag-aaral ng aming grupo ang immune system, na may layunin ng pag-uunawa ng mga bagong therapies para sa kanser. Ginamit namin ang ANN computational na mga modelo upang pag-aralan ang maikling ibabaw na protina-mga code na ginagamit ng aming mga immune cell upang matukoy kung may isang bagay sa dayuhan sa aming katawan at sa gayon ay dapat maatake. Kung naiintindihan namin ang higit pa tungkol sa kung paano ang pagkakaiba sa pagitan ng normal / sarili at abnormal / banyagang mga selula ng ating immune cells (tulad ng mga selyula ng T), maaari naming magdisenyo ng mas mahusay na mga bakuna at therapies.

Nakuha namin ang mga pampublikong magagamit na mga katalogo ng libu-libong mga protina-code na kinilala ng mga mananaliksik sa mga nakaraang taon. Ibinahagi namin ang malaking data na ito sa dalawang: mga normal na code ng self-proteksyon na nakuha mula sa malusog na selula ng tao, at mga abnormal na protina-mga code na nagmula sa mga virus, mga bukol at bakterya. Pagkatapos ay nakabukas kami sa isang artipisyal na neural network na binuo sa aming lab.

Sa sandaling pinakain namin ang mga code ng protina sa ANN, nakilala ang algorithm pangunahing mga pagkakaiba sa pagitan ng normal at abnormal na mga code ng protina. Mahirap para sa mga tao na masubaybayan ang mga ganitong uri ng biological phenomena - may mga libu-libong mga kodigo ng protina na literal na pag-aralan sa malaking hanay ng data. Kinakailangan ang isang makina upang labanan ang mga kumplikadong mga problema at tukuyin ang mga bagong biology.

Mga Panghuhula sa Pag-aaral ng Machine

Ang pinakamahalagang aplikasyon ng machine learning sa biology ay ang utility nito sa paggawa ng mga hula batay sa malaking data. Ang mga hula na nakabatay sa computer ay maaaring magkaroon ng kahulugan ng malaking data, mga hypothesis ng pagsubok at i-save ang mahalagang oras at mga mapagkukunan.

Halimbawa, sa aming larangan ng biology ng T-cell, alam kung aling mga viral protein-codes na naka-target ang kritikal sa pagbuo ng mga bakuna at paggamot. Ngunit mayroong maraming mga indibidwal na mga protina-code mula sa anumang naibigay na virus na ito ay masyadong mahal at mahirap na eksperimento pagsubok bawat isa.

Sa halip, sinanay namin ang artipisyal na neural network upang tulungan ang makina na matutunan ang lahat ng mahahalagang katangian ng biochemical ng dalawang uri ng protina-mga code - normal kumpara sa abnormal. Pagkatapos ay tinanong namin ang modelo na "mahuhulaan" kung aling mga bagong viral protein codes ay katulad ng "abnormal" na kategorya at maaaring makita ng T-cells at sa gayon, ang immune system. Nasubukan namin ang modelo ng ANN sa iba't ibang mga protina ng virus na hindi kailanman pinag-aralan bago.

Sure enough, tulad ng isang masigasig na mag-aaral na sabik na mangyaring ang guro, ang neural network ay nakilala nang tama ang karamihan ng naturang T-cell-activating protein-codes sa loob ng virus na ito. Pagsubok din namin sinubok ang mga code ng protina na na-flag nito upang mapatunayan ang katumpakan ng mga hula ng ANN. Gamit ang modelong neural network na ito, ang isang siyentipiko ay maaaring kaya mabilis na hulaan lahat ng mahahalagang maiikling protina mula sa isang nakakapinsalang virus at subukan ang mga ito upang bumuo ng isang paggamot o isang bakuna, sa halip na paghula at pagsubok sa bawat isa.

Maayos na Pagpapatupad ng Machine Learning

Dahil sa tuluy-tuloy na pagdadalisay, ang agham sa pag-aaral ng agham at pag-aaral ng data ay nagiging napakaliit para sa anumang uri ng siyentipikong pananaliksik. Ang mga posibilidad sa paggamit ng mga computer upang sanayin at mahulaan sa biology ay halos walang katapusang. Mula sa pag-uunawa kung aling kombinasyon ng mga biomarker ang pinakamainam para sa pag-detect ng isang sakit upang maunawaan kung bakit lamang ang ilang mga pasyente ay nakikinabang sa isang partikular na paggamot sa kanser, ang pagmimina ng malaking data na nagtatakda gamit ang mga computer ay naging isang mahalagang ruta para sa pananaliksik.

Siyempre, may mga limitasyon. Ang pinakamalaking problema sa malaking data science ay ang data mismo. Kung ang data na nakuha sa pamamagitan ng -omics pag-aaral ay may kapintasan upang magsimula sa, o batay sa mahinang agham, ang mga machine ay makakakuha ng sinanay sa masamang data - humahantong sa mahihirap na hula. Ang mag-aaral ay kasing ganda ng guro.

Dahil ang mga computer ay hindi nararamdaman (pa), maaari nila sa kanilang paghahanap para sa mga pattern lumapit sa kanila kahit na wala umiiral, pagbabangon muli, sa masamang data at hindi maaaring mag-produce science.

At ang ilang mga mananaliksik ay nagtataas ng mga alalahanin tungkol sa pagiging nagiging mga computer itim na mga kahon ng data para sa mga siyentipiko na hindi malinaw na nauunawaan ang mga manipulasyon at machinations nila isinasagawa sa kanilang ngalan.

Sa kabila ng mga problemang ito, ang mga benepisyo ng malaking data at machine ay patuloy na gagawin silang mahalagang mga kasosyo sa siyentipikong pananaliksik. Sa pag-iisip ng mga caveat, tayo ay kakaiba na nakakaunawa sa biology sa pamamagitan ng mga mata ng isang makina.

Tungkol sa Ang May-akdaAng pag-uusap

Sri Krishna, PhD Kandidato, Biological Design, School of Biological and Health Systems Engineering, Arizona State University at Diego Chowell, PhD Student sa Applied Mathematics, Arizona State University

Ang artikulong ito ay orihinal na na-publish sa Ang pag-uusap. Basahin ang ang orihinal na artikulo.


Mga Kaugnay Book:

at InnerSelf Market at Amazon