Kung Paano Ipagkakaloob sa Iyong Mga Kaibigan sa Twitter ang Inyong Anonymity

Habang nagba-browse ka sa internet, sinusubaybayan ng mga online na advertiser halos bawat site na binibisita mo, nagtitipon ng isang impormasyon tungkol sa iyong mga gawi at kagustuhan. Kapag bumisita ka sa isang site ng balita, maaari nilang makita na ikaw ay isang tagahanga ng basketball, opera at mga nobelang misteryo, at sa gayon pumili ng mga ad na pinasadya sa iyong mga kagustuhan.

Ginagamit ng mga advertiser ang impormasyong ito upang lumikha ng mga highly personalized na karanasan, ngunit karaniwang hindi nila alam ang eksaktong kung sino ka. Pagmasdan nila lamang ang iyong mga digital na trail, hindi ang iyong pagkakakilanlan mismo, at sa gayon ay maaari mong pakiramdam na napanatili mo ang isang degree ng pagkawala ng lagda.

Subalit, sa isang papel ko coauthored kasama sina Ansh Shukla, Sharad Goel at Arvind Narayanan, ipinapakita namin na ang mga hindi nakikilalang mga tala ng pag-browse sa web ay maaaring sa katunayan ay madalas na nakatali pabalik sa mga pagkakakilanlan sa real-mundo.

Upang subukan ang aming diskarte, binuo namin isang website kung saan maaaring ibalik ng mga tao ang kanilang kasaysayan sa pagba-browse para sa mga layunin ng pag-aaral na ito. Pagkatapos ay sinubukan naming makita kung maaari naming i-link ang kanilang mga kasaysayan pabalik sa kanilang mga profile sa Twitter gamit lamang ang magagamit na data sa publiko. Ang pitumpu't dalawang porsiyento ng mga tao na sinubukan naming i-deonymize ay tama na kinilala bilang nangungunang kandidato sa mga resulta ng paghahanap, at ang porsyento ng 81 ay kabilang sa mga nangungunang kandidato ng 15.

privacy2 2 8Mga screenshot ng deanonymization website.

Ito ay, sa aming kaalaman, ang pinakamalaking pagpapakita ng deanonymization sa ngayon, dahil pinipili nito ang tamang gumagamit sa daan-daang milyong mga posibleng gumagamit ng Twitter. Bilang karagdagan, ang aming pamamaraan ay nangangailangan lamang na ang isang tao ay mag-click sa mga link na lumilitaw sa kanilang mga feed sa social media, hindi na mag-post ng anumang nilalaman - kaya kahit na ang mga taong maingat tungkol sa kung ano ang ibinabahagi nila sa internet ay mahina pa rin sa atake na ito.


innerself subscribe graphic


Paano ito gumagana

Sa isang mataas na antas, ang aming diskarte ay batay sa isang simpleng pagmamasid. Ang bawat tao ay may isang natatanging natatanging social network, na binubuo ng pamilya at mga kaibigan mula sa paaralan, trabaho at iba't ibang yugto ng kanilang buhay. Bilang isang resulta, ang hanay ng mga link sa iyong Facebook at Twitter feed ay lubos na kapansin-pansing. Ang pag-click sa mga link na ito ay nag-iiwan ng marka ng pamagat sa iyong kasaysayan ng pagba-browse.

Sa pagtingin sa hanay ng mga web page na binisita ng isang indibidwal, nakuha namin ang mga katulad na feed ng social media, na nagbigay ng listahan ng mga kandidato na malamang na nakabuo ng kasaysayan ng pagba-browse sa web. Sa ganitong paraan, maaari naming itali ang pagkakakilanlan ng real-world ng isang tao sa halos kumpletong hanay ng mga link na kanilang binisita, kabilang ang mga link na hindi na-post sa anumang social media site.

Ang pagsasagawa ng estratehiya na ito ay may dalawang pangunahing hamon. Ang una ay panteorya: Paano mo ibubuhos kung gaano kagaya ang isang tukoy na feed sa social media sa isang naibigay na kasaysayan sa pag-browse sa web? Ang isang simpleng paraan ay upang masukat ang bahagi ng mga link sa kasaysayan ng pagba-browse na lumilitaw din sa feed. Gumagana ito nang makatuwirang mahusay sa pagsasagawa, ngunit ito ay nagpapahiwatig ng pagkakatulad sa mga malalaking feed, yamang ang mga iyon ay naglalaman lamang ng higit na mga link. Sa halip, kumuha kami ng alternatibong diskarte. Nagpapahiwatig kami ng isang inilarawan sa pangkinaugalian, probabilistikong modelo ng pag-uugali sa pag-browse sa web, at pagkatapos ay ikukumpara ang posibilidad ng isang user na ang feed sa social media ay nakabuo ng naobserbahang kasaysayan ng pagba-browse. Pagkatapos ay pinili namin ang social media feed na malamang.

Ang ikalawang hamon ay nagsasangkot ng pagkilala sa mga pinaka-katulad na mga feed sa real time. Narito kami sa Twitter, dahil ang Twitter feed (sa kaibahan sa Facebook) ay higit sa lahat sa publiko. Gayunpaman, kahit na ang mga feed ay pampubliko, hindi lamang namin maaaring lumikha ng isang lokal na kopya ng Twitter laban sa kung saan maaari naming patakbuhin ang aming mga query. Sa halip ay inilalapat namin ang isang serye ng mga diskarte upang kapansin-pansing bawasan ang espasyo sa paghahanap. Pagkatapos namin pagsamahin ang mga diskarte sa pag-cache na may on-demand na pag-crawl ng network upang buuin ang mga feed ng mga pinaka-maaasahan na mga kandidato. Sa nabawasan na hanay ng kandidato, inilalapat namin ang aming sukat ng pagkakatulad upang makagawa ng mga huling resulta. Dahil sa kasaysayan ng pagba-browse, karaniwan naming maisagawa ang buong prosesong ito sa ilalim ng mga segundo ng 60.

Ang aming pamamaraan ay mas tumpak para sa mga taong nagba-browse ng Twitter nang mas aktibo. Siyamnapung porsiyento ng mga kalahok na nag-click sa 100 o higit pang mga link sa Twitter ay maaaring maitugma sa kanilang pagkakakilanlan.

Maraming mga kumpanya ay may mga mapagkukunan sa pagsubaybay upang isakatuparan ang isang pag-atake tulad ng isang ito, kahit na walang pahintulot ng kalahok. Sinubukan naming i-deonymize ang bawat isa sa aming mga kalahok sa eksperimento gamit lamang ang mga bahagi ng kanilang kasaysayan ng pagba-browse na makikita ng mga partikular na kumpanya sa pagsubaybay (dahil ang mga kumpanya ay may mga tagasubaybay sa mga pahinang iyon). Nalaman namin na maraming mga kumpanya ang may mga mapagkukunan upang tumpak na makilala ang mga kalahok.

privacy 2 8Iba pang mga deanonymization studies

Maraming iba pang mga pag-aaral ang gumamit ng magagamit na mga footprint sa publiko upang ipahayag ang sensitibong data.

Marahil ang pinakasikat na pag-aaral sa mga linyang ito ay isinagawa ng Latanya Sweeney sa Harvard University sa 2002. Natuklasan niya iyon Ang 87 porsiyento ng mga Amerikano ay natukoy nang kakaiba batay sa isang kumbinasyon ng kanilang ZIP code, kasarian at petsa ng kapanganakan. Ang tatlong katangiang ito ay magagamit sa parehong pampublikong data ng rehistrasyon ng botante (na binili niya para sa US $ 20) at hindi nakikilalang medikal na datos (na malawak na ipinamamahagi, sapagkat iniisip ng mga tao na hindi nakikilala ang data). Sa pamamagitan ng pagkonekta sa mga pinagmumulan ng data, natagpuan niya ang mga medikal na rekord ng gobernador ng Massachusetts.

Sa 2006, Nagpapatakbo ang Netflix ng isang paligsahan upang mapabuti ang kalidad ng mga rekomendasyon sa pelikula. Inilabas nila ang isang anonymized dataset ng mga rating ng pelikula ng mga tao, at nag-aalok ng $ 1 milyon sa koponan na maaaring mapabuti ang kanilang algorithm ng rekomendasyon sa pamamagitan ng 10 na porsiyento. Mga siyentipiko ng computer Arvind Narayanan at Vitaly Shmatikov napansin na ang mga pelikula na pinapanood ng mga tao ay lubhang kapansin-pansing, at ang karamihan sa mga tao sa dataset ay natatanging nakikilala batay sa isang maliit na subset ng kanilang mga pelikula. Sa madaling salita, batay sa mga pagpipilian sa pelikula at IMDB ng Netflix, natukoy ng mga mananaliksik kung sino talaga ang mga gumagamit ng Netflix.

Sa pagtaas ng social media, mas maraming tao ang nagbabahagi ng impormasyon na parang hindi nakapipinsala, ngunit aktwal na nagpapakita ng maraming personal na impormasyon. Ang isang pag-aaral na pinangunahan ng Michal Kosinski sa University of Cambridge ginamit ang mga kagustuhan sa Facebook upang mahulaan ang mga tao sekswal na oryentasyon, mga pampulitikang pananaw at mga katangian ng pagkatao.

Ang isa pang koponan, pinangunahan ng Gilbert Wondracek sa Vienna University of Technology, nagtayo ng isang "deanonymization machine" na nakilala kung aling mga grupo ang bahagi ng mga tao sa social network Xing, at ginamit iyon upang malaman kung sino sila - dahil ang mga grupo na bahagi mo ay kadalasang sapat upang makilala nang kakaiba ikaw.

Ang magagawa mo

Karamihan sa mga pag-atake na ito ay nakakalito upang ipagtanggol laban, maliban kung ititigil mo ang paggamit ng internet o pakikilahok sa pampublikong buhay.

Kahit na huminto ka sa paggamit ng internet, maaari pa ring mangolekta ng mga kumpanya ng data sa iyo. Kung ang ilan sa iyong mga kaibigan ay nag-upload ng kanilang mga contact sa telepono sa Facebook, at ang iyong numero ay nasa lahat ng kanilang mga listahan ng contact, pagkatapos ay maaaring gumawa ang Facebook ng mga hula tungkol sa iyo, kahit na hindi mo ginagamit ang kanilang serbisyo.

Ang pinakamahusay na paraan upang ipagtanggol laban sa deanonymizing algorithm tulad ng sa amin ay upang limitahan ang hanay ng mga tao na may access sa iyong hindi nakikilalang data sa pag-browse. Gusto ng mga extension ng browser Ghostery harangan ang mga third-party na tracker. Nangangahulugan iyon na, kahit na ang kumpanya na ang website na iyong binibisita ay alam na bumibisita ka sa kanila, ang mga kumpanya sa advertising na nagpapakita ng mga ad sa kanilang pahina ay hindi makakakuha ng iyong data sa pagba-browse at pagsasama-samahan ito sa maraming mga site.

Kung ikaw ay isang webmaster, maaari kang makatulong na protektahan ang iyong mga gumagamit sa pamamagitan ng pagpapaalam sa kanila na mag-browse sa iyong site gamit HTTPS. Ang pag-browse gamit ang HTTP ay nagbibigay-daan sa mga attackers upang makuha ang iyong kasaysayan sa pagba-browse sa pamamagitan ng pag-sniff ng trapiko sa network, na nagbibigay-daan sa kanila na isakatuparan ang atake na ito. Maraming mga website na lumipat sa HTTPS; kapag inulit namin ang aming deanonymization eksperimento mula sa pananaw ng isang trapiko trapiko sniffer, lamang 31 porsiyento ng mga kalahok ay maaaring deanonymized.

Gayunpaman, napakaliit ang maaari mong gawin upang maprotektahan ang iyong sarili laban sa mga pag-atake ng deanonymization sa pangkalahatan, at marahil ang pinakamahusay na paraan ng pagkilos ay upang ayusin ang mga inaasahan. Walang pribado sa digital age na ito.

Tungkol sa Ang May-akda

Jessica Su, Ph.D. Mag-aaral sa Stanford, Stanford University

Ang artikulong ito ay orihinal na na-publish sa Ang pag-uusap. Basahin ang ang orihinal na artikulo.

Mga Kaugnay Books

at InnerSelf Market at Amazon