Talagang Nagtatrabaho ang Modeling Pagtarget ng Facebook ng Cambridge Analytica

Talagang Nagtatrabaho ang Modeling Pagtarget ng Facebook ng Cambridge AnalyticaPaano ka tumpak na mai-profile online? Andrew Krasovitckii / Shutterstock.com

Ang tagapagpananaliksik na ang trabaho ay nasa gitna ng Ang pag-aaral ng Facebook-Cambridge Analytica at ang pag-aalsa sa pampulitika sa advertising ay nagsiwalat na ang kanyang pamamaraan ay nagtrabaho nang katulad ng isa Ginagamit ng Netflix upang magrekomenda ng mga pelikula.

Sa isang email sa akin, ipinaliwanag ng iskolar ng Cambridge University na si Aleksandr Kogan kung paano naproseso ang data ng kanyang statistical sa Facebook para sa Cambridge Analytica. Ang katumpakan na inaangkin niya ay nagpapahiwatig na gumagana ito pati na rin itinatag pamamaraan ng pag-target ng botante batay sa mga demograpiko tulad ng lahi, edad at kasarian.

Kung nakumpirma, ang account ng Kogan ay nangangahulugan na ang paggamit ng digital na paggamit ng Cambridge Analytica ay bahagya ang virtual na kristal na bola ang ilan ay nag-claim. Ngunit ang mga numero ng Kogan ay nagbibigay ipakita din ano ang - at hindi - talagang posible by pagsasama ng personal na data may machine learning para sa mga pampulitikang dulo.

Gayunman, tungkol sa isang pangunahing pag-aalala sa publiko, iminumungkahi ng mga numero ng Kogan na ang impormasyon sa mga personalidad ng gumagamit o "psychographics"Ay isang maliit lamang na bahagi ng kung paano naka-target ang mga mamamayan ng modelo. Ito ay hindi isang modelo ng pagkatao na mahigpit na nagsasalita, ngunit sa halip ay isang pinakuluang down demographics, panlipunan impluwensya, pagkatao at lahat ng iba pa sa isang malaking sangay ng bukol. Mukhang nakagawa ng mahalagang tool sa kampanya na ito na sumipsip-ng-lahat-ng-ugnayan-at-tawag-na-pagkatao, kahit na ang produktong ibinebenta ay hindi gaanong sinisingil.

Ang pangako ng pag-target sa personalidad

Sa kalagayan ng mga paghahayag na ginagamit ng mga tagapayo sa Trump ng Cambridge Analytica data mula sa 50 milyong mga gumagamit ng Facebook upang ma-target ang pampulitikang advertising sa panahon ng eleksyon sa 2016 US, ang Facebook ay may nawala ang bilyun-bilyong halaga ng stock market, mga pamahalaan sa magkabilang panig ng Atlantic mayroon binuksan pagsisiyasat, at isang nagbubuhat panlipunan kilusan ay tumatawag sa mga gumagamit #DeleteFacebook.

Ngunit isang pangunahing katanungan ay hindi pa nasagot: Ang Cambridge Analytica ba ay talagang epektibong mag-target ng mga mensahe ng kampanya sa mga mamamayan batay sa kanilang mga katangian sa pagkatao - o kahit na ang kanilang "panloob na mga demonyo, "Bilang isang whistleblower ng kompanya na pinaghihinalaang?

Kung sinuman ang makakaalam kung ano ang ginawa ng Cambridge Analytica sa napakalaking tungkulin ng data ng Facebook, magiging Aleksandr Kogan at Joseph Chancellor. Ito ay ang kanilang pagsisimula ng Global Science Research na nakolekta ang impormasyon mula sa profile Mga gumagamit ng 270,000 Facebook at sampu-sampung milyong mga kaibigan nila gamit ang app na pang-personalidad na tinatawag na "thisisyourdigitallife."

Bahagi ng aking sariling pananaliksik nakatuon sa pag-unawa machine learning pamamaraan, at ang aking nalalapit na libro Tinatalakay kung paano ginagamit ng mga digital na kumpanya ang mga modelong rekomendasyon upang bumuo ng mga madla. Nagkaroon ako ng kutob sa kung paano nagtrabaho ang modelo ng Kogan at Chancellor.

Kaya nag-email ako sa Kogan upang magtanong. Kogan ay isang pa rin tagapagpananaliksik sa Cambridge University; ang kanyang tagatulong Gumagana ngayon ang Chancellor sa Facebook. Sa isang kahanga-hangang pagpapakita ng kagandahang pang-akademiko, sumagot si Kogan.

Ang kanyang sagot ay nangangailangan ng ilang pag-unpack, at ilang mga background.

Mula sa Netflix Prize sa "psychometrics"

Bumalik sa 2006, kapag ito ay pa rin ng isang DVD-by-mail na kumpanya, Netflix inaalok ng isang gantimpala ng $ 1 milyon sa kahit sino na nakabuo ng isang mas mahusay na paraan upang gumawa ng mga hula tungkol sa mga ranggo ng pelikula ng mga gumagamit kaysa sa kumpanya na mayroon. Ang isang sorpresa sa tuktok kakumpitensya ay isang independiyenteng software developer gamit ang sagisag na Simon Funk, na ang pangunahing paraan ay isinama sa lahat ng mga nangungunang koponan 'entries. Ang Funk ay inangkop sa isang pamamaraan na tinatawag na "singular na halaga ng agnas, "Nagpapalawak ng mga rating ng mga gumagamit ng mga pelikula sa isang serye ng mga kadahilanan o sangkap - mahalagang isang hanay ng mga natukoy na mga kategorya, niraranggo ayon sa kahalagahan. Bilang Funk ipinaliwanag sa isang blog post,

"Kaya, halimbawa, ang isang kategorya ay maaaring kumatawan sa mga pelikula ng aksyon, may mga pelikula na may maraming aksyon sa itaas, at mabagal ang mga pelikula sa ibaba, at mga kaakibat na mga gumagamit na tulad ng mga pelikula ng aksyon sa itaas, at ang mga mas gusto ng mabagal na pelikula sa ilalim. "

Ang mga kadahilanan ay artipisyal na mga kategorya, na hindi laging tulad ng uri ng mga kategorya na maaaring magawa ng mga tao. Ang ang pinakamahalagang kadahilanan sa maagang modelo ng Netflix ng Funk ay tinukoy ng mga gumagamit na nagmamahal sa mga pelikulang tulad ng "Pearl Harbor" at "The Wedding Planner" habang binibigyan din ng mga pelikula tulad ng "Lost in Translation" o "Eternal Sunshine of Spotless Mind." Ang kanyang modelo ay nagpakita kung paano makakahanap ang pag-aaral ng machine ng mga ugnayan sa mga grupo ng mga tao, at mga grupo ng mga pelikula, na ang mga tao mismo ay hindi kailanman makakakita.

Ang pangkalahatang diskarte ni Funk ay gumagamit ng 50 o 100 pinakamahalagang mga kadahilanan para sa parehong mga gumagamit at pelikula upang makagawa ng isang disenteng hula sa kung paano i-rate ng bawat user ang bawat pelikula. Ang pamamaraang ito, madalas na tinatawag pagbabawas ng dimensionality o pormula ng matrix, ay hindi bago. Ipinakita ng mga mananaliksik ng agham pampulitika na iyon katulad na mga diskarte gamit ang roll-call boto ng data maaaring mahuhulaan ang mga boto ng mga miyembro ng Kongreso na may katumpakan ng porsyento ng 90. Sa sikolohiya ang "Big Five"Ang modelo ay ginamit din upang mahulaan ang pag-uugali sa pamamagitan ng clustering magkasama mga tanong sa personalidad na tended upang sumagot nang katulad.

Gayunpaman, ang modelo ng Funk ay isang malaking pagsulong: Pinapayagan nito ang pamamaraan upang gumana nang mahusay sa mga malalaking data set, kahit na ang mga may maraming mga nawawalang data - tulad ng dataset ng Netflix, kung saan ang isang karaniwang gumagamit ay nagbigay lamang ng ilang dosenang mga pelikula sa libu-libong kumpanya sa kumpanya library. Higit sa isang dekada matapos ang natapos na Netflix Prize contest, Mga pamamaraan na batay sa SVD, O kaugnay na mga modelo para sa pahiwatig na data, ay pa rin ang tool ng pagpili para sa maraming mga website upang mahulaan kung ano ang mga gumagamit ay magbasa, manood, o bumili.

Ang mga modelong ito ay maaaring mahulaan ang iba pang mga bagay, masyadong.

Alam ng Facebook kung ikaw ay Republikano

Sa 2013, ang mga mananaliksik sa Cambridge University na si Michal Kosinski, David Stillwell at Thore Graepel ay naglathala ng isang artikulo sa predictive power ng data ng Facebook, gamit ang impormasyong natipon sa pamamagitan ng online na personalidad na pagsubok. Ang kanilang unang pag-aaral ay halos magkapareho sa na ginamit sa Netflix Prize, gamit ang SVD upang maikategorya ang parehong mga gumagamit at mga bagay na "nagusto" sa mga nangungunang 100 na mga kadahilanan.

Ang papel ay nagpakita na ang isang kadahilanan modelo na ginawa sa Facebook user "kagustuhan" nag-iisa ay Tumpak na porsiyento ng 95 sa pagkakaiba sa pagitan ng mga itim at puti na mga sumasagot, ang 93 porsiyento ay tumpak sa tanging mga lalaki mula sa mga kababaihan, at ang 88 porsiyento ay tumpak sa tangi na mga tao na nakilala bilang gay na lalaki mula sa mga lalaki na nakilala bilang tuwid. Ito ay maaaring kahit na tama na makilala ang mga Republicans mula sa Demokratikong 85 porsyento ng oras. Kapaki-pakinabang din ito, bagaman hindi tumpak, para sa hinuhulaan ang mga marka ng mga gumagamit sa "Big Five" na pagsubok sa pagkatao.

Nagkaroon pampublikong biglang sigaw bilang tugon; sa loob ng ilang mga linggo nagkaroon ng Facebook Ginawa ng mga gumagamit ang gusto ng pribado bilang default.

Ang Kogan at Chancellor, mga mananaliksik din ng Cambridge University noong panahong iyon, ay nagsimulang gumamit ng data ng Facebook para sa pag-target sa halalan bilang bahagi ng pakikipagtulungan sa parent firm ng Cambridge Analytica SCL. Inanyayahan ni Kogan si Kosinski at Stillwell na sumali sa kanyang proyekto, ngunit ito hindi gumagana. Sinabi ni Kosinski na pinaghihinalaang Kogan at Chancellor reverse-engineered ang modelong "gusto" ng Facebook para sa Cambridge Analytica. Tinanggihan ito ni Kogan, sinasabing ang kanyang proyekto "binuo ang lahat ng aming mga modelo gamit ang aming sariling data, nakolekta gamit ang aming sariling software. "

Ano ang talagang ginawa ng Kogan at Chancellor?

Habang sinundan ko ang mga pagpapaunlad sa kuwento, ito ay naging malinaw na Kogan at Chancellor sa katunayan ay nakolekta ng maraming ng kanilang sariling mga data sa pamamagitan ng thisisyourdigitallife app. Sila ay tiyak na maaaring magkaroon ng isang predictive modelo SVD tulad na itinampok sa Kosinski at Stillwell's nai-publish na pananaliksik.

Kaya nag-email ako sa Kogan upang tanungin kung iyan ang ginawa niya. Medyo sa aking sorpresa, sumulat siya pabalik.

"Hindi namin eksaktong gumamit ng SVD," ang isinulat niya, na sinasabing ang SVD ay maaaring makikipagpunyagi kapag ang ilang mga gumagamit ay may mas maraming "kagustuhan" kaysa sa iba. Sa halip, sinabi ni Kogan, "Ang pamamaraan ay isang bagay na aktwal na binuo namin ... Hindi ito isang bagay na nasa pampublikong domain." Nang walang mga detalye, inilarawan ni Kogan ang kanilang paraan bilang isang "multi-step co-occurrence lapitan."

Gayunpaman, ang kanyang mensahe ay nagpatuloy upang tiyakin na ang kanyang diskarte ay katulad ng SVD o iba pang pamamaraan ng paktorisasyon ng matrix, tulad ng sa Netflix Prize competition, at ang modelong Kosinki-Stillwell-Graepel Facebook. Ang pagbawas ng dimensional sa data ng Facebook ay ang core ng kanyang modelo.

Gaano katumpak ito?

Sinabi ng Kogan na ang eksaktong modelo na ginamit ay hindi mahalaga, bagaman - kung ano ang mahalaga ang katumpakan ng mga hula nito. Ayon sa Kogan, ang "ugnayan sa pagitan ng mga hinulaang at aktwal na mga marka ... ay nasa paligid ng [30 na porsiyento] para sa lahat ng dimensyon ng personalidad." Sa paghahambing, ang mga naunang Big Five na marka ng isang tao ay tungkol sa 70 sa 80 porsiyento tumpak sa predicting ang kanilang mga marka kapag sila ay muli ang pagsubok.

Ang mga claim ng katumpakan ng Kogan ay hindi maaaring i-verify nang nakapag-iisa, siyempre. At sinuman sa gitna ng gayong mataas na profile na iskandalo ay maaaring magkaroon ng insentibo upang maipalaganap ang kanyang kontribusyon. Sa kanyang hitsura sa CNN, Ipinaliwanag ni Kogan sa isang lalong hindi mapaniniwalaan na Anderson Cooper na, sa katunayan, ang mga modelo ay talagang hindi nagtrabaho nang mahusay.

Sinagot ni Aleksandr Kogan ang mga tanong sa CNN.

Sa katunayan, ang katumpakan ng Kogan ay tila medyo mababa, ngunit makatwirang. Ang Kosinski, Stillwell at Graepel ay iniulat na maihambing o bahagyang mas mahusay na mga resulta, tulad ng may ilang iba pang mga pag-aaral sa akademya gamit ang digital footprints upang mahulaan ang pagkatao (bagaman ang ilan sa mga pag-aaral ay may mas maraming data kaysa sa Facebook lamang "gusto"). Ito ay kamangha-mangha na ang Kogan at Chancellor ay pumunta sa problema ng pagdisenyo ng kanilang sariling pagmamay-ari na modelo kung ang off-the-istante solusyon ay mukhang tulad ng tumpak.

Mahalaga bagaman, ang katumpakan ng modelo sa mga marka ng pagkatao ay nagpapahintulot sa mga paghahambing ng mga resulta ng Kogan sa iba pang pananaliksik. Ang mga na-publish na mga modelo na may katumbas na katumpakan sa predicting pagkatao ay mas tumpak sa paghula sa mga demograpiko at mga pampulitikang variable.

Halimbawa, ang katulad na modelo ng Kosinski-Stillwell-Graepel SVD ay tumpak na 85 sa pagtula ng partido na kaakibat, kahit na hindi gumagamit ng anumang impormasyon sa profile maliban sa mga gusto. Ang modelo ng Kogan ay may katulad o mas mahusay na katumpakan. Ang pagdaragdag kahit isang maliit na halaga ng impormasyon tungkol sa mga kaibigan o mga demograpiko ng mga gumagamit ay malamang na mapalakas ang kawastuhan na ito sa itaas ng porsiyento ng 90. Ang mga hula tungkol sa kasarian, lahi, oryentasyong sekswal at iba pang mga katangian ay marahil ay higit pa sa 90 na porsiyento ng tumpak din.

Mahalaga, ang mga hula na ito ay lalong mabuti para sa mga pinaka-aktibong gumagamit ng Facebook - ang mga tao ang modelo ay pangunahing ginagamit upang ma-target. Ang mga gumagamit na may mas kaunting aktibidad upang pag-aralan ay malamang na hindi sa Facebook magkano pa rin.

Kapag ang psychographics ay halos demograpiko

Ang pag-alam kung paano binuo ang modelo ay nagpapaliwanag ng tila salungat na pahayag tungkol sa Cambridge Analytica ang papel - o kakulangan nito - na ang pag-profile ng personalidad at psychographics ay na-play sa pagmomodelo nito. Ang mga ito ay ang lahat ng technically pare-pareho sa kung ano ang Kogan naglalarawan.

Ang isang modelo tulad ng Kogan ay magbibigay ng mga pagtatantya para sa bawat variable na magagamit sa anumang grupo ng mga gumagamit. Ibig sabihin nito ay awtomatiko ito tantiyahin ang mga marka ng personalidad ng Big Five para sa bawat botante. Ngunit ang mga marka ng pagkatao ay ang output ng modelo, hindi ang input. Alam ng lahat ng modelo na ang ilang mga gusto sa Facebook, at ilang mga gumagamit, ay madalas na pinagsama-sama.

Sa modelong ito, maaaring sabihin ng Cambridge Analytica na ito ay tumutukoy sa mga taong may mababang pagkakabukas sa karanasan at mataas na neuroticism. Ngunit ang parehong modelo, na may eksaktong parehong mga hula para sa bawat gumagamit, ay maaaring tulad ng tumpak na paghahabol upang makilala ang mas nakapag-aral mas lumang mga lalaki Republikano.

Ang impormasyon ng Kogan ay tumutulong din na linawin ang pagkalito tungkol sa kung ang Cambridge Analytica talagang tinanggal ang trove nito ng data ng Facebook, kapag binubuo ang mga modelo mula sa data mukhang nagpapalipat pa rin, At kahit na lalo pang binuo.

Ang pag-uusapAng buong punto ng isang modelo ng pagbawas ng dimensyon ay ang mathematically kumakatawan sa data sa mas simpleng anyo. Ito ay kung ang Cambridge Analytica ay kumuha ng litrato na may mataas na resolution, binago ito upang maging mas maliit, at pagkatapos ay tanggalin ang orihinal. Ang larawan ay umiiral pa rin - at habang umiiral ang mga modelo ng Cambridge Analytica, ang data ay epektibo rin.

Tungkol sa Ang May-akda

Matthew Hindman, Associate Professor of Media and Public Affairs, George Washington University

Ang artikulong ito ay orihinal na na-publish sa Ang pag-uusap. Basahin ang ang orihinal na artikulo.

Mga Kaugnay Books

{amazonWS: searchindex = Books; keywords = online privacy; maxresults = 3}

enafarzh-CNzh-TWnltlfifrdehiiditjakomsnofaptruessvtrvi

sundin ang InnerSelf sa

facebook-icontwitter-iconrss-icon

Kumuha ng Pinakabagong Sa pamamagitan ng Email

{Emailcloak = off}