Penyulihbentuk Praterlatih Generatif

Mereka adalah jaringan saraf tiruan yang digunakan dalam tugas pemrosesan bahasa alami . GPT didasarkan pada arsitektur penyulihbentuk, dilatih sebelumnya pada kumpulan data besar berisi teks tak berlabel, dan mampu menghasilkan konten baru yang mirip manusia. Pada tahun 2023, sebagian besar LLM memiliki karakteristik ini dan terkadang disebut secara luas sebagai GPT.

GPT pertama diperkenalkan pada tahun 2018 oleh OpenAI . OpenAI telah merilis model dasar GPT yang sangat berpengaruh yang telah diberi nomor urut, untuk membentuk seri "GPT- n ". Masing-masing secara signifikan lebih mampu dibandingkan sebelumnya, karena peningkatan ukuran (jumlah parameter yang dapat dilatih) dan pelatihan. Yang terbaru, GPT-4, dirilis pada Maret 2023. Model seperti ini telah menjadi dasar bagi sistem GPT mereka yang lebih spesifik tugas, termasuk model yang disesuaikan untuk mengikuti instruksi — yang pada gilirannya mendukung layanan bot percakapan ChatGPT .

Istilah "GPT" juga digunakan dalam nama dan deskripsi model yang dikembangkan oleh orang lain. Misalnya, model fondasi GPT lainnya mencakup serangkaian model yang dibuat oleh EleutherAI, dan tujuh model yang dibuat oleh Cerebras pada tahun 2023. Selain itu, perusahaan di industri yang berbeda telah mengembangkan GPT khusus tugas di bidangnya masing-masing, seperti "EinsteinGPT" dari Salesforce (untuk CRM ) dan "BloombergGPT" dari Bloomberg (untuk keuangan).

Sejarah

Perkembangan awal

Pra-pelatihan generatif (GP) adalah konsep yang sudah lama ada dalam aplikasi pembelajaran mesin. Awalnya digunakan sebagai bentuk pembelajaran semiselia, karena model dilatih terlebih dahulu pada kumpulan data yang tidak berlabel (langkah pra-pelatihan ) dengan mempelajari cara menghasilkan titik data dalam kumpulan data tersebut, lalu dilatih untuk mengklasifikasikan kumpulan data yang diberi label.

Meskipun penyulihbentuk linier yang tidak dinormalisasi sudah ada sejak tahun 1992, arsitektur penyulihbentuk modern baru tersedia pada tahun 2017 ketika dipublikasikan oleh para peneliti di Google dalam makalah " Attention Is All You Need ". Perkembangan tersebut menyebabkan munculnya model bahasa besar seperti BERT pada tahun 2018 yang merupakan transformator terlatih (PT) tetapi tidak dirancang untuk menjadi generatif (BERT adalah model "hanya encoder"). Pada waktu yang sama, pada tahun 2018, OpenAI menerbitkan artikelnya yang berjudul "Meningkatkan Pemahaman Bahasa dengan Pra-Pelatihan Generatif", yang memperkenalkan sistem penyulihbentuk praterlatih generatif (GPT) (" GPT-1 ") yang pertama.

Sebelum arsitektur berbasis penyulihbentuk model neural NLP ( pemrosesan bahasa alami ) dengan kinerja terbaik biasanya menggunakan pembelajaran yang diawasi dari sejumlah besar data yang diberi label secara manual. Ketergantungan pada pembelajaran yang diawasi membatasi penggunaannya pada kumpulan data yang tidak dianotasi dengan baik, dan juga menjadikannya sangat mahal dan memakan waktu untuk melatih model bahasa yang sangat besar.

Pendekatan semi-supervisi yang digunakan OpenAI untuk membuat sistem generatif berskala besar — dan pertama kali dilakukan dengan model penyulihbentuk — melibatkan dua tahap: tahap "pelatihan awal" generatif tanpa pengawasan untuk menetapkan parameter awal menggunakan tujuan pemodelan bahasa, dan tahap yang diawasi. tahap " penyempurnaan " yang diskriminatif untuk menyesuaikan parameter ini dengan tugas target.

Perkembangan selanjutnya

Mengenai model dasar GPT yang lebih baru, OpenAI menerbitkan versi pertama GPT-3 pada bulan Juli 2020. Terdapat tiga model dengan parameter 1B, 6.7B, 175B yang masing-masing diberi nama babbage, curie, dan davinci (memberi inisial B, C, dan D).

Pada bulan Juli 2021, OpenAI menerbitkan Codex, model GPT khusus tugas yang ditargetkan untuk aplikasi pemrograman. Ini dikembangkan dengan menyempurnakan GPT-3 versi parameter 12B (berbeda dari model GPT-3 sebelumnya) menggunakan kode dari GitHub .

Pada bulan Maret 2022, OpenAI menerbitkan dua versi GPT-3 yang telah disesuaikan untuk mengikuti instruksi (instruction-tuned), bernama davinci-instruct-beta (175B) dan text-davinci-001, lalu memulai beta pengujian kode-davinci-002 . text-davinci-002 telah disetel instruksi dari code-davinci-002 . Text-davinci-003 dan ChatGPT dirilis pada November 2022, dan keduanya dikembangkan berdasarkan text-davinci-002 melalui pembelajaran penguatan dari umpan balik manusia (RLHF). text-davinci-003 dilatih untuk mengikuti instruksi (seperti pendahulunya), sedangkan ChatGPT dilatih lebih lanjut untuk interaksi percakapan dengan pengguna manusia.

Model dasar GPT terbaru OpenAI, GPT-4, dirilis pada 14 Maret 2023. Ini dapat diakses langsung oleh pengguna melalui ChatGPT versi premium, dan tersedia bagi pengembang untuk digabungkan ke dalam produk dan layanan lain melalui API OpenAI. Produsen model dasar GPT lainnya termasuk EleutherAI (dengan serangkaian model yang dimulai pada Maret 2021) dan Cerebras (dengan tujuh model yang dirilis pada Maret 2023).

Model dasar

Model dasar adalah model AI yang dilatih pada data luas dalam skala besar sehingga dapat disesuaikan dengan berbagai tugas hilir.

Sejauh ini, model fondasi GPT yang paling terkenal berasal dari seri GPT-n OpenAI . Yang terbaru adalah GPT-4, dimana OpenAI menolak untuk mempublikasikan ukuran atau rincian pelatihannya (dengan alasan "lanskap persaingan dan implikasi keselamatan dari model skala besar").

Seri "GPT-n" OpenAI
Model	Arsitektur	Jumlah parameter	Data pelatihan	Tanggal rilis	Biaya pelatihan
GPT-1	Pengawasandi di penyulihbentuk 12 tingkat, berkepala 12 (tanpa pereksandi), diikuti oleh linear-softmax.	117 juta	BookCorpus : Teks 4,5 GB, dari 7000 buku yang belum diterbitkan dari berbagai genre.	02018-06-1111 June 2018	30 hari pada 8 GPU P600, atau 1 peta FLOP /s-hari.
GPT-2	GPT-1, tetapi dengan normalisasi yang dimodifikasi	1,5 miliar	WebText: 40 GB teks, 8 juta dokumen, dari 45 juta halaman web yang diberi suara positif di Reddit .	02019-02-1414 February 2019 (versi awal/terbatas) dan 02019-11-055 November 2019 (versi lengkap)	"puluhan petaflop/s-hari", atau 1,5e21 FLOP.
GPT-3	GPT-2, tetapi dengan modifikasi untuk memungkinkan penskalaan yang lebih besar	175 miliar	499 miliar token yang terdiri dari CommonCrawl (570 GB), WebText, Wikipedia bahasa Inggris, dan dua korpora buku (Buku1 dan Buku2).	02020-05-2828 May 2020	3640 petaflop/s-hari (Tabel D.1 ), atau 3.1e23 FLOP.
GPT-3.5	Tidak diungkapkan	175 miliar	Tidak diungkapkan	15 Maret 2022	Tidak diungkapkan
GPT-4	Juga dilatih dengan prediksi teks dan RLHF ; menerima teks dan gambar sebagai masukan. Rincian lebih lanjut tidak bersifat publik.	Tidak diungkapkan. Diperkirakan 1,7 triliun	Tidak diungkapkan	02023-03-1414 March 2023	Tidak diungkapkan. Diperkirakan 2,1e25 FLOP.

Model serupa lainnya termasuk PaLM Google, model landasan luas yang telah dibandingkan dengan GPT-3 dan baru-baru ini tersedia bagi pengembang melalui API, dan GPT-JT Together, yang dilaporkan sebagai alternatif sumber terbuka yang kinerjanya paling mendekati GPT-3 (dan berasal dari GPT sumber terbuka sebelumnya ). Meta AI (sebelumnya Facebook ) juga memiliki model bahasa besar dasar berbasis penyulihbentuk generatif, yang dikenal sebagai LLaMA .

GPT dasar juga dapat menggunakan modalitas selain teks, untuk masukan dan/atau keluaran. GPT-4 adalah LLM multimodal yang mampu memproses masukan teks dan gambar (meskipun keluarannya terbatas pada teks). Mengenai keluaran multimodal, beberapa model berbasis penyulihbentuk generatif digunakan untuk teknologi teks-ke-gambar seperti difusi dan decoding paralel. Model semacam ini dapat berfungsi sebagai model landasan visual (VFM) untuk mengembangkan sistem hilir yang dapat bekerja dengan gambar.

Referensi

This article uses material from the Wikipedia Bahasa Indonesia article Penyulihbentuk praterlatih generatif, which is released under the Creative Commons Attribution-ShareAlike 3.0 license ("CC BY-SA 3.0"); additional terms may apply (view authors). Konten tersedia di bawah CC BY-SA 4.0 kecuali dinyatakan lain. Images, videos and audio are available under their respective licenses.
®Wikipedia is a registered trademark of the Wiki Foundation, Inc. Wiki Bahasa Indonesia (DUHOCTRUNGQUOC.VN) is an independent company and has no affiliation with Wiki Foundation.