OpenAI välja töötatud keelemudel ChatGPT on viimase aasta jooksul muutunud uskumatult populaarseks tänu oma võimele genereerida inimsarnaseid vastuseid paljudes olukordades.
Tegelikult on ChatGPT muutunud nii pädevaks, et õpilased kasutavad seda nüüd kodutööde abistamiseks. See on ajendanud mitut USA koolipiirkonda blokeerima seadmete juurdepääsu mudelile, kui nad on oma võrkudes.
Niisiis, kui tark on ChatGPT?
27.märtsil 2023 avaldatud tehnilises aruandes esitas OpenAI põhjaliku ülevaate oma uusimast mudelist, mida tuntakse GPT-4 nime all. See aruanne sisaldas eksamitulemuste komplekti, mida Visual Capitalist Marcus Lu ja Rosey Eason kujutasid ülaltoodud graafikul.
GPT-4 vs GPT-3.5
ChatGPT võimaluste võrdlemiseks simuleeris OpenAI erinevate kutse- ja akadeemiliste eksamite katseid. See hõlmab SAT-i, advokatuuri eksamit ja erinevaid edasijõudnute paigutuse (AP) finaalvõistlusi.
Toimivust mõõdeti protsentiilides, mis põhinesid iga eksamitüübi testi sooritajate viimastel saadaolevatel skooride jaotustel.
Protsentiilide hindamine on viis, kuidas oma sooritust teiste tulemustega võrreldes järjestada. Näiteks kui asetasite testis 60.protsentiili, tähendab see, et saite rohkem kui 60% testi sooritanutest.
Järgmises tabelis on loetletud tulemused, mida me graafikul visualiseerisime.
Ülaltoodud skoorid kehtivad GPT-4 jaoks, kus visuaalsed sisendid on lubatud. Põhjalikumate tulemuste saamiseks vaadake OpenAI tehnilist aruannet.
Nagu näeme, on GPT-4 (välja antud märtsis 2023) enamiku nende eksamite puhul palju võimekam kui GPT-3.5 (välja antud märtsis 2022). Seda ei suudetud aga parandada AP inglise keeles ega konkureerivas programmeerimises.
Seoses AP inglise keele (ja muude eksamitega, kus nõuti kirjalikke vastuseid) hindasid ChatGPT esildised „1–2 kvalifitseeritud kolmandast osapoolest töövõtjat, kellel on asjakohane töökogemus nende esseede hindamisel”. Kuigi ChatGPT on kindlasti võimeline koostama piisavaid esseesid, võis tal olla raskusi eksami juhiste mõistmisega.
Võistleva programmeerimise jaoks proovis GPT 10 Codeforcesi võistlust 100 korda. Codeforces korraldab võistlevaid programmeerimisvõistlusi, kus osalejad peavad lahendama keerulisi probleeme. GPT-4 keskmine Codeforcesi hinnang on 392 (alla 5.protsentiili), samas kui selle kõrgeim ühel võistlusel oli umbes 1300. Viidates Codeforcesi hinnangute lehele, on enim punkte kogunud kasutaja Hiinast pärit reitinguga 3841.
Mis on GPT-4-ga muutunud?
Siin on mõned valdkonnad, kus GPT-4 on parandanud kasutajakogemust võrreldes GPT-3.5-ga.
Interneti-juurdepääs ja pistikprogrammid
GPT-3.5 piirav tegur oli see, et sellel ei olnud juurdepääsu Internetile ja seda õpetati andmete alal ainult kuni 2021.aasta juunini.
GPT-4 abil on kasutajatel juurdepääs erinevatele pistikprogrammidele, mis võimaldavad ChatGPT-l Interneti-juurdepääsu, pakkuda ajakohasemaid vastuseid ja täita laiemat valikut ülesandeid. See hõlmab kolmandate osapoolte pistikprogramme sellistest teenustest nagu Expedia, mis võimaldavad ChatGPT-l broneerida teie jaoks kogu puhkuse.
Visuaalsed sisendid
Kui GPT-3.5 saab vastu võtta ainult tekstisisestusi, siis GPT-4 suudab ka pilte analüüsida. Kasutajad saavad paluda ChatGPT-l fotot kirjeldada, diagrammi analüüsida või isegi meemi selgitada.
Suurem konteksti pikkus
Lõpuks suudab GPT-4 käsitleda palju suuremaid tekstikoguseid ja hoida vestlusi kauem käigus. Võrdluseks: GPT-3.5 maksimaalne päringu väärtus oli 4096 märki, mis võrdub ligikaudu 3000 sõnaga. GPT-4-l on kaks varianti, üks 8192 märgiga (6000 sõna) ja teine 32 768 märgiga (24 000 sõna).