Gpt-3: Transformativní jazykový model z roku 2020

GPT-3
Vývojář	OpenAI
První vydání	28. května 2020
Aktuální verze	175B
Typ softwaru	velký jazykový model, autoregressive model, transformer, generativní model a Generative pre-trained transformer
Licence	proprietární licence
Web	arxiv.org/abs/2005.14165
	Některá data mohou pocházet z datové položky.

Jedná se o autoregresivní jazykový model, který je schopen hlubokého učení textu, trénovaný za pomocí internetových dat. Model, podobně jako lidský mozek, si zapamatovává data, ze kterých je následně schopen produkovat nejen nový text, ale také generovat kód, příběhy i básně.

Produkt představila v květnu 2020 společnost OpenAI jakožto nástupce předchozího jazykového modelu s názvem GPT-2, který nebyl schopný obsáhnout takové množství dat a produkovat kvalitní texty. Výzkumná laboratoř OpenAI se sídlem v americkém San Franciscu předvedla v červenci roku 2020 úspěšné beta testování modelu. GPT-3 model na rozdíl od svého předchůdce produkuje texty, ze kterých je mnohem těžší rozpoznat, zda jej psal člověk či tato umělá inteligence. V roce 2022 byl na této platformě spuštěn chatbot ChatGPT, který získal značnou mediální pozonost.

Přístup k základnímu modelu má pouze společnost Microsoft, na jejíž používání získala v září 2020 licenční smlouvu. Všichni ostatní uživatelé mohou používat alespoň veřejné rozhraní API.

Historie GPT

V roce 2015 byl projekt GPT-3 vyvíjen pod křídly neziskové organizace OpenAI. Cílem projektu bylo vytvořit a popularizovat „přátelskou umělou inteligenci“ schopnou přinést užitek lidstvu jako celku. První verze GPT byla vydána v roce 2017 a obsahovala 117 milionů parametrů. Druhá verze GPT-2, vyšla v roce 2019 a obsahovala 1,5 miliardy parametrů.

Nejnovější verze, GPT-3, svou konkurenci více než stonásobně překonala. Model byl trénován na 175 miliardách parametrů. Nejvýkonnějším předchůdcem byla Turing NLG společnosti Microsoft s 10 miliardami parametrů. Jedná se o mnohem robustnější verzi, která je schopna lépe zpracovávat data v užších specializacích. Verze GPT i GPT-2 byl kritizovány za nedostatečný výkon v hudební oblasti a za špatné schopnosti v oblasti vyprávění příběhů a psaní textu. GPT-3 je v těchto ohledech díky masivní datové základně mnohonásobně více výkonný model, zvládá úkony jako odpovídání na otázky, psaní esejí, shrnutí textu, překlad textu a také generování zdrojového kódu.

Trénovací data

K trénování modelu byla v nejvyšší míře použita datová sada Common Crawl2, která obsahuje téměř miliardu slov. Jedná se o nezpracovaná data webových stránek, extrahovaná metadata a textové extrakce. Takováto velikost je k trénování modelu dostačující, nicméně nefiltrovaná nebo málo filtrovaná verze datasetu by mohla vést k nekvalitním výstupům.

Ke zlepšení kvality datové sady vedly 3 kroky, konkrétně:

Filtrování stažené verze Common Crawl na základě podobností s řadou vysoce kvalitních referenčních dat.
Byla provedena Fuzzy deduplikace na úrovni dokumentů v rámci datasetů i napříč nimi, aby bylo zabráněno redundanci a došlo k zachování integrity dat.
CommonCrawl dataset byl rozšířen o další kvalitní referenční korpusy, což vedlo ke zvýšení rozmanitosti modelu.

Konkrétně se jednalo o rozšíření datasety WebText2, který zahrnuje veškeré příspěvky na Redditu datované od 2005-2020. Dále Books1 a Books2, datasety internetových knižních korporací. V poslední řadě a v nejmenším rozsahu byl použit dataset anglických článku z Wikipedie.

Použité datové sady:
Dataset	Tokeny	Váha	Uběhlé epochy při trénování 300 mld. tokenů
Common Crawl2	410 mld.	60%	0,44
WebText2	19 mld.	22%	2,9
Books1	12 mld.	8%	1,9
Books2	55 mld.	8%	0,43
Wiki	3 mld.	3%	3,4

"Váha" se vztahuje k podílu příkladů během tréninku, které jsou vybrány z daného souboru dat. Tento podíl záměrně není úměrný velikosti datasetu. Některé datové sady se tak během trénování objeví až 3,4×, zatímco jiné dokonce méně než jednou.

Jak GPT-3 funguje

GPT-3 je řada modelů jazykové predikce, nejedná se o jeden model, ale o rodinu modelů. Každý model v rodině má jiný počet trénovatelných parametrů. Nejvýkonnější z rodiny GPT-3 je model s názvem text-davinci-003, trénovaný na nejvyšším množství parametrů. Zvládne jakoukoli úlohu, kterou zvládnou ostatní modely, často ve vyšší kvalitě, s delším výstupem a lepším dodržováním pokynů. Podporuje také vkládání doplnění v textu. Dalším členem rodiny je například podobně schopný model text-curie-001,který je rychlejší a levnější než Davinci. Zatímco Davinci je silnější, pokud jde o analýzu složitých textů, model Curie je výkonný pro mnoho nuancovaných úloh, jako je klasifikace sentimentu a sumarizace. Dalšími oficiálně dostupnými modely jsou Babbage a Ada, které jsou určeny spíše k rychlým a jednoduchým úlohám, jako je klasifikace textu.

Architektura modelů GPT-3 je postavena na principu strojového učení neuronové sítě, který dokáže přijmout text jako vstup a transformovat jej na to, co předpovídá jako nejužitečnější výsledek. Toho je dosaženo trénováním systému na rozsáhlém množství internetových textů. GPT-3 se zaměřuje na výstup v podobě textu, čehož je s vysokou úspěšností schopen na základě toho, že byl předem vycvičen na obrovském množství textu. Když uživatel zadá vstupní text, systém analyzuje jazyk a pomocí prediktoru vytvoří nejpravděpodobněji nejužitečnější výstup.

Obecné možnosti využití GPT-3

Generování a překlad textu

Model dokáže psát beletrii, vyprávět vtipy, psát básně a vytvářet konverzační rukopisy a řadu dalších věcí. Za předpokladu správného podnětu, tzv. promptu, dokáže psát přesvědčivé a poutavé články, nicméně však nedokáže uvést zdroje a nelze spoléhat na pravost a pravdivost informací, jedná-li se o informativní či naučný článek. Je také schopen generovat všechny druhy dokumentů, od obchodních poznámek až po právní dokumenty. Kromě psaní jej lze využít k opravě gramatických chyb v textu a nebo jako nástroj pro překlad.

Generování kódu

Pomocí GPT-3 lze překládat přirozený jazyk do kódu a naopak. Lze také překládat kód z jednoho programovacího jazyka do druhého, vysvětlit část složitého kódu, opravit kód nebo odpovědět na otázky týkající se používání programovacího jazyka.

Automatizace zákaznické péče

Startupy jako ActiveChat využívají GPT-3 k vývoji chatbotů, možností živého chatu a dalších konverzačních služeb s umělou inteligencí, které pomáhají odlehčit zátěž online zákaznické péče.

Většina interakcí se zákaznickými službami jsou jednoduché dotazy týkající se například ceny nebo otevírací doby. Může se také jednat o běžné problémy, které může mít mnoho nových zákazníků s produktem, onboarding nebo snadno odstranitelné potíže. Umělá inteligence dokáže odpovídat na dotazy bez ohledu na denní či noční dobu a v několika cílových jazycích. Zákazníci dostávají téměř okamžité odpovědi a mohou snadněji řešit problémy.

Limitace

Řada modelů GPT-3 je stejně jako většina technologií svazována jistými limitacemi.

Uživatelé identifikovali zejména následující nedostatky modelu:

Výstupy mohou postrádat sémantickou koherenci, což vede k tomu, že text je psaný nesrozumitelně a v nesouladu s pravidly správného psaní. Se zvyšující se délkou textu je výstup čím dál více náchylný k tomuto jevu.
Ve výstupech jsou obsaženy všechny chyby, které se mohou vyskytovat v trénovacích datech. V praxi to znamená, že výstupy mohou obsahovat diskriminaci, a to například rasovou, genderovou nebo v otázkách víry.
Nelze zaručit, že výstupy modelů budou vždy tvrzení odpovídající reálné skutečnosti, tedy pravdivé výstupy.

Model nefunguje na principu neustálého učení. Byl předem vycvičen, což znamená, že nemá trvalou dlouhodobou paměť, která by se učila z každé interakce.

Kromě výše zmíněních limitací trpí GPT-3 stejnými problémy jako všechny neuronové sítě: nemá dostatečné schopnosti vysvětlit a interpretovat, z jakého důvodu vedou dané vstupy k daným výstupům.

Další limitací modelu, taktéž způsobenou absencí principu neustálého učení je fakt, že model bude brzy zastaralý, pokud nebude doučen na nová data. GPT-3 momentálně funguje na základě dat nasbíraných do roku 2019. Neví tak například vůbec nic o tématu jako je Covid-19 a proto když GPT-3 pracuje s pojmy jako "lock down" a nebo společenské distancování, nedokáže poskytnout kontext spojený s pandemií, protože o ní jednoduše neví, stala se až po jeho kompletním naučení. Tento problém lze adresovat doučením modelu o nové, aktuální datasety.

Použití v praxi

Copy.ai

V aplikaci slouží GPT-3 zejména obchodníkům a majitelům různých firem. Produkt je totiž schopný generovat text pro blogy, názvy pro produkty, atp. a to na základě slovní zásoby zadané uživatelem. Aplikace generuje řadu možných textových výsledků, ze kterých si poté uživatel sám vybírá, co se mu líbí nejvíce.

Jasper.ai

GPT-3 se používá v Jasper.ai, jako generátor obsahu, který má pomáhat obchodníkům a copyeditorům. Aplikace se používá k tomu, aby pomohl podnikům rozšiřovat jejich obsahové strategie, pomáhal nerodilým mluvčím efektivněji sdělovat jejich myšlenky a umožňoval lidem rozvíjet každodenní návyky psaní. Nové rozšíření prohlížeče Jasper vydané pro Chrome umožňuje uživatelům vzít si s sebou generativní umělou inteligenci na celou řadu webových stránek a platforem obsahu, které používají.

ChatGPT

Spadá stejně jako samotný model GPT-3 pod křídla společnosti OpenAI. Jedná se o model, který je schopen odpovídat na otázky dialogovým, konverzačním způsobem. Model umí díky svému formátu odpovídat na otázky, přiznávat své chyby a zpochybňovat nesprávné předpoklady. Je také postaven tak, aby odmítal nevhodné požadavky.

Microsoft

GPT-3 bude integrován do Microsoft Power Apps, platformy pro vývoj low code aplikací, která umožní všem, od lidí s malými nebo žádnými zkušenostmi s kódováním až po profesionální vývojáře s hlubokými znalostmi programování, vytvářet aplikace pro zlepšení produktivity nebo podnikových procesů.

Excelformulabot

S využitím GPT-3 umožňuje převádět textové pokyny do vzorců pro aplikace Excel nebo Google Sheets nebo naopak vysvětlit již existující vzorce a jejich dekompozici. Textové pokyny lze převést i do VBA kódu.

CodexDB

Codex syntetizuje specifický kód pro zpracování dotazů SQL pomocí modelu GPT-3 Codex od společnosti OpenAI. Uživatelé si vygenerovaný kód přizpůsobí pomocí instrukcí v přirozeném jazyce. Laičtí uživatelé mohou například v přirozeném jazyce popsat výstup, který se má generovat a který jim pomůže při ladění dotazů SQL.

TextCortex AI

Poháněné systémem GPT-3, TextCortex dokáže generovat texty pro blogy nebo marketingové kopie, názvy produktů, značky a další. Uživatelé zadají požadovaný slovník a aplikace vytvoří řadu možných výsledků; uživatelé si pak mohou vybrat ten, který se jim nejvíce líbí.

Reference

This article uses material from the Wikipedia Čeština article GPT-3, which is released under the Creative Commons Attribution-ShareAlike 3.0 license ("CC BY-SA 3.0"); additional terms may apply (view authors). Text je dostupný pod CC BY-SA 4.0, pokud není uvedeno jinak. Images, videos and audio are available under their respective licenses.
®Wikipedia is a registered trademark of the Wiki Foundation, Inc. Wiki Čeština (DUHOCTRUNGQUOC.VN) is an independent company and has no affiliation with Wiki Foundation.