Maaaring Mag-book ng AI Ang Isang restawran O Isang Paghirang sa Buhok, Ngunit Huwag Inaasahan ang Isang Buong Pag-uusap Sure ang iyong katulong sa AI ay maaaring mag-book ng appointment para sa iyo, ngunit ano ang tungkol sa anumang makabuluhang pag-uusap? Shutterstock / Bas Nastassia

Kamakailan lamang sa Google unveiled ang pinakabagong pakikipag-usap AI, na tinatawag na Duplex. Ang Duplex ay parang isang tunay na tao, kumpleto sa mga paghinto, "umms" at "ahhs".

Sinabi ng tech giant na maaari itong makipag-usap sa mga tao sa telepono upang gumawa ng mga appointment at suriin ang mga oras ng pagbubukas ng negosyo.

Ang pag-iskedyul ng duplex ng isang appointment sa salon ng buhok Google445 KB (Download)

Sa mga naitala na pag-uusap na nilalaro sa Google na nagbukas, nag-usap nang walang putol sa mga tao sa pagtanggap ng pagtatapos, na tila walang kamalayan na hindi sila nakikipag-usap sa ibang tao.

Tumawag sa isang restawran ang Duplex. Google399 KB (Download)

Ang mga tawag na ito ay iniwan ang ang mga madla na nakatuon sa teknolohiya sa Google ay nagpapakita ng pagganyak at pagpapasaya. Sa isang halimbawa, naintindihan din ng AI kung ang tao ay nakikipag-usap upang makihalubilo, at nagawang magpatuloy sa pagsunod sa pag-uusap at tumugon nang naaangkop nang sinabi ito na hindi na kailangang gumawa ng isang pag-book.


innerself subscribe graphic


Ang pagtaas ng mga katulong sa AI

Kung nagamit mo ang alinman sa magagamit na mga katulong sa boses, tulad ng Google Home, Apple's Siri o Amazon Echo, ang kakayahang umangkop na ito ay maaaring sorpresa sa iyo. Ang mga katulong na ito ay natatandaan na mahirap upang magamit para sa anumang iba pa kaysa sa karaniwang mga kahilingan tulad ng sa isang contact sa telepono, maglaro ng isang kanta, gumawa ng isang simpleng paghahanap sa web, o magtakda ng isang paalala.

Kapag nakikipag-usap tayo sa mga kasalukuyang katulong na henerasyon, lagi nating alam na nakikipag-usap tayo sa isang AI at madalas nating iniangkop ang sasabihin natin nang naaayon, sa paraang inaasahan nating mapakinabangan ang ating mga pagkakataon na gawin itong gumana.

Ngunit ang mga taong nakikipag-usap sa Duplex ay walang ideya. Sila ay nag-atubili, nag-backtrack, lumaktaw ng mga salita, at nagbago pa rin ng mga katotohanan sa isang pangungusap. Hindi napalampas ni Duplex ang isang matalo. Tila nauunawaan nito kung ano ang nangyayari.


Magbasa nang higit pa: Ang mga nagsasalita ng matalinong ay maaaring maging puntong punto para sa automation sa bahay


Kaya ang hinaharap ay dumating nang mas maaga kaysa sa inaasahan ng sinuman? Malapit na mapuno ang mundo sa online (at sa telepono) na mga katulong ng AI na nakikipag-chat nang maligaya at ginagawa ang lahat para sa amin? O mas masahol pa, bigla ba tayong mapapalibutan ng mga intelihenteng AIs na may sariling mga saloobin at ideya na maaaring o hindi kasama sa atin mga tao?

Ang sagot ay isang tiyak na "hindi". Upang maunawaan kung bakit, nakakatulong itong tumingin nang mabilis sa ilalim ng hood sa kung ano ang nagtutulak ng isang AI tulad nito.

Duplex: kung paano ito gumagana

Ito ang kung ano ang Duplex AI system mukhang.

Ang papasok na tunog ay naproseso sa pamamagitan ng isang sistema ng ASR. Gumagawa ito ng teksto na sinuri gamit ang data ng konteksto at iba pang mga input upang makabuo ng isang tugon ng tugon na binabasa nang malakas sa pamamagitan ng sistema ng text-to-speech (TTS). Google

Ang system ay tumatagal ng "input" (ipinakita sa kaliwa) na siyang tinig ng taong nakikipag-usap sa telepono. Ang tinig ay dumadaan sa awtomatikong pagkilala sa pagsasalita (ASR) at mai-convert sa teksto (nakasulat na mga salita). Ang ASR mismo ay isang advanced na sistema ng AI, ngunit sa isang uri na ginagamit na sa mga katulong sa boses.

Pagkatapos ay nai-scan ang teksto upang matukoy ang uri ng pangungusap na ito (tulad ng pagbati, isang pahayag, isang katanungan o isang tagubilin) ​​at kunin ang anumang mahalagang impormasyon. Ang pangunahing impormasyon pagkatapos ay magiging bahagi ng Konteksto, na kung saan ay labis na input na nagpapanatili sa system hanggang sa napag-uusapan sa kung ano ang sinabi sa ngayon sa pag-uusap.

Ang teksto mula sa ASR at ang Konteksto ay pagkatapos ay ipinadala sa puso ng Duplex, na kung saan ay tinatawag na isang Artipisyal na Neural Network (ANN).

Sa diagram sa itaas, ang ANN ay ipinapakita ng mga bilog at mga linya na kumokonekta sa kanila. Ang mga ANN ay maluwag na modelo sa aming talino, na mayroong bilyun-bilyong mga neuron na magkakaugnay sa napakalaking network.

Hindi pa isang utak, ngayon

Ang mga ANN ay mas simple kaysa sa aming talino bagaman. Ang tanging bagay na sinusubukan nitong gawin ay tumutugma sa mga salitang input na may naaangkop na tugon. Nalaman ng ANN sa pamamagitan ng pagpapakita ng mga transkrip ng libu-libong mga pag-uusap ng mga taong gumagawa ng mga bookings para sa mga restawran.

Sa pamamagitan ng sapat na mga halimbawa, natututo kung anong mga uri ng mga pangungusap na input ang aasahan mula sa taong pinag-uusapan, at kung anong mga uri ng mga tugon ang ibibigay para sa bawat isa.

Ang tugon ng teksto na binubuo ng ANN ay pagkatapos ay ipinapadala sa isang synthesizer ng text-to-speech (TTS), na nagko-convert ito sa mga sinasalita na salita na pagkatapos ay nilalaro sa tao sa telepono.

Sa sandaling muli, ang TTS synthesizer ay isang advanced na AI - sa kasong ito ito ay mas advanced kaysa sa isa sa iyong telepono, dahil ito ay halos hindi mailalarawan mula sa anumang normal na tinig.

Iyon lang ang naroroon. Sa kabila ng pagiging state-of-the-art, ang puso ng system ay talagang proseso lamang sa pagtutugma ng teksto. Ngunit maaari mong itanong - kung ito ay sobrang simple, bakit hindi natin ito magagawa dati?

Isang natutunan na tugon

Ang katotohanan ay ang wika ng tao, at karamihan sa iba pang mga bagay sa totoong mundo, ay masyadong variable at may sakit na hawakan nang maayos ng normal na mga computer, ngunit ang ganitong uri ng problema ay perpekto para sa AI.

Tandaan na ang output na ginawa ng AI ay lubos na nakasalalay sa mga pag-uusap na ipinakita habang natututo ito.

Nangangahulugan ito na ang iba't ibang mga AI ay kailangang sanayin upang gumawa ng mga bookings ng iba't ibang uri - kaya, halimbawa, ang isang AI ay maaaring mag-book ng mga restawran at isa pa ay maaaring mag-book ng mga appointment sa buhok.

Ito ay kinakailangan dahil ang mga uri ng mga katanungan at tugon ay maaaring mag-iba nang labis para sa iba't ibang uri ng mga bookings. Ito rin kung paano maaaring maging mas mahusay ang Duplex kaysa sa mga katulong sa pangkalahatang tinig, na kailangang hawakan ang maraming uri ng mga kahilingan.

Kaya ngayon dapat malinaw na hindi tayo magkakaroon ng kaswal na pag-uusap sa aming mga katulong sa AI anumang oras sa lalong madaling panahon. Sa katunayan, ang lahat ng aming kasalukuyang AIs ay talagang walang iba kundi ang mga pattern ng mga tagadulas (sa kasong ito, na tumutugma sa mga pattern ng teksto). Hindi nila naiintindihan kung ano ang kanilang naririnig, o kung ano ang pagtingin nila, o kung ano ang sinasabi nila.

Ang pagtutugma ng pattern ay isang bagay na ginagawa ng ating talino, ngunit marami pa rin silang ginagawa. Ang susi sa paglikha ng mas makapangyarihang AI ay maaaring i-unlock ang higit pa sa mga lihim ng utak. Gusto ba natin? Kumbaga, iyon na isa pang tanong.Ang pag-uusap

Tungkol sa Ang May-akda

Peter Stratton, kapwa Pananaliksik sa Postdoctoral, Ang University of Queensland

Ang artikulong ito ay muling nai-publish mula sa Ang pag-uusap sa ilalim ng lisensya ng Creative Commons. Basahin ang ang orihinal na artikulo.