Tłumacz Google (ang. Google Translate) – darmowy serwis internetowy Google umożliwiający tłumaczenie tekstu, plików, stron internetowych, mowy i zdjęć na różne języki.
Zdjęcie serwisu (2018) | |
Typ strony | serwis tłumaczeniowy |
---|---|
Komercyjna | nie |
Data powstania | 2006 (od 2001 dostępny przez Language Tools) |
Autor | |
Właściciel | |
Rejestracja | opcjonalna |
Wersje językowe | |
Strona internetowa |
W 2001 w wyszukiwarce Google wprowadzono funkcję tłumaczenia znalezionych stron internetowych dla anglojęzycznych użytkowników. Do wyszukiwarki dodano także podstronę Language Tools (narzędzia językowe), na której można było tłumaczyć podaną przez siebie stronę i tekst. W 2006 te dwa narzędzia zyskały własną subdomenę, tuż po implementacji pierwszej pary języków korzystających ze statystycznego tłumaczenia maszynowego (angielski-arabski)[potrzebny przypis]. Rok 2006 podawany jest jako data uruchomienia Tłumacza Google. 8 maja 2008 dodano język polski i możliwość tłumaczenia między dwoma dowolnymi językami z list[potrzebny przypis]. W 2013 z serwisu korzystało codziennie 200 milionów osób. W 2016 ponad 500 milionów osób korzystało z serwisu – tłumacząc ponad 100 miliardów słów dziennie. W marcu 2017 język polski zaczął opierać się na systemie GNMT, który ulepszył jakość tłumaczeń[potrzebny przypis].
Tłumacz Google pozwala na tłumaczenie tekstu wieloma metodami. Wśród nich są:
Serwis natychmiastowo tłumaczy wyrażenia podczas wpisywania i potrafi wykryć ich język. Wpisując wyraz lub wyrażenie translator działa niczym słownik, oferując kilka propozycji[potrzebny przypis]. Po zalogowaniu się na konto Google, serwis pozwala na zapisanie tłumaczeń na później i przegląd historii.
W przypadku języków, które nie posługują się pismem łacińskim dostępna jest automatyczna transliteracja. Do tego dostępne są edytory wprowadzania znaków (IME) dla większości tych języków[potrzebny przypis].
Otrzymane tłumaczenia można odsłuchać dzięki syntezie mowy – większość należy do WaveNet[kto?] od Google (głosy brzmiące naturalnie), a reszta – do eSpeak (głosy brzmiące syntetycznie). Głosy różnią się w zależności od geolokalizacji: angielski głos będzie miał akcent brytyjski w Europie, Afryce i Azji Południowej, australijski w Australii i Nowej Zelandii, indyjski w Indiach, nigeryjski w Nigerii, a amerykański w reszcie świata. Podobnie z hiszpańskim (amerykański na kontynencie, kastylijski poza nim), portugalskim (akcent europejski tylko w Portugalii, poza nią – brazylijski) i francuskim (akcent Quebecu tylko w Kanadzie, poza nią – europejski)[potrzebny przypis].
Tłumacz Google jest dostępny jako wtyczka w niektórych przeglądarkach, a w Chrome jest zintegrowana domyślnie.
kod | język | data dodania[potrzebny przypis] | narzędzia wprowadzania[potrzebny przypis] | pismo odręczne | syntezator mowy[potrzebny przypis] | tłumaczenie mowy | transkrypcja | aparat |
---|---|---|---|---|---|---|---|---|
en | angielski | do 2001 |
| tak | tak (WaveNet, 5 dialektów) | tak | tak | tak |
fr | francuski | do 2001 |
| tak | tak (WaveNet, 2 dialekty) | tak | tak | tak |
es | hiszpański | do 2001 |
| tak | tak (WaveNet, 2 dialekty) | tak | tak | tak |
de | niemiecki | do 2001 |
| tak | tak (WaveNet) | tak | tak | tak |
pt | portugalski | do 2001 |
| tak | tak (WaveNet, 2 dialekty) | tak | tak | tak |
it | włoski | do 2001 |
| tak | tak (WaveNet) | tak | tak | tak |
zh-CN | chiński (pismo uproszczone) | 18–19 listopada 2004 |
| tak | tak (WaveNet) | tak | tak | tak |
ja | japoński | 18–19 listopada 2004 |
| tak | tak (WaveNet) | tak | nie | tak |
ko | koreański | 18–19 listopada 2004 |
| tak | tak (WaveNet) | tak | nie | tak |
ar | arabski | 26 kwietnia 2006 |
| tak | tak (WaveNet) | tak | nie | tak |
ru | rosyjski | 5–6 grudnia 2006, ~0:00 |
| tak | tak (WaveNet) | tak | tak | tak |
zh-TW | chiński (pismo tradycyjne) | 2 lutego 2007, ~9:10 | - | - | tak (WaveNet) | - | tak | - |
el | grecki | 11 listopada 2007, ~14:30 |
| tak | tak (WaveNet) | tak | nie | tak |
nl | niderlandzki | 11 listopada 2007, ~14:30 |
| tak | tak (WaveNet) | tak | nie | tak |
hi | hindi | 30 kwietnia 2008, ~19:00 |
| tak | tak (WaveNet) | tak | tak | tak |
bg | bułgarski | 8 maja 2008 |
| tak | tak (WaveNet) | tak | nie | tak |
hr | chorwacki | 8 maja 2008 |
| tak | tak (eSpeak) | tak | nie | tak |
cs | czeski | 8 maja 2008 |
| tak | tak (WaveNet) | tak | nie | tak |
da | duński | 8 maja 2008 |
| tak | tak (WaveNet) | tak | nie | tak |
fi | fiński | 8 maja 2008 |
| tak | tak (WaveNet) | tak | nie | tak |
no | norweski | 8 maja 2008 |
| tak | tak (WaveNet) | tak | nie | tak |
pl | polski | 8 maja 2008 |
| tak | tak (WaveNet) | tak | nie | tak |
ro | rumuński | 8 maja 2008 |
| tak | tak (WaveNet) | tak | nie | tak |
sv | szwedzki | 8 maja 2008 |
| tak | tak (WaveNet) | tak | nie | tak |
tl | filipiński | 24–25 września 2008 |
| tak | tak (WaveNet) | tak | nie | tak |
iw | hebrajski | 24–25 września 2008 |
| tak | tak (WaveNet) | tak | nie | tak (nie w czasie rzeczywistym) |
id | indonezyjski | 24–25 września 2008 |
| tak | tak (WaveNet) | tak | nie | tak |
ca | kataloński | 24–25 września 2008 |
| tak | tak (WaveNet) | tak | nie | tak |
lt | litewski | 24–25 września 2008 |
| tak | nie | tak | nie | tak |
lv | łotewski | 24–25 września 2008 |
| tak | tak (WaveNet) | tak | nie | tak |
sr | serbski | 24–25 września 2008 |
| tak | tak (WaveNet) | tak | nie | tak |
sk | słowacki | 24–25 września 2008 |
| tak | tak (WaveNet) | tak | nie | tak |
sl | słoweński | 24–25 września 2008 |
| tak | nie | tak | nie | tak |
uk | ukraiński | 24–25 września 2008 |
| tak | tak (WaveNet) | tak | nie | tak |
vi | wietnamski | 24–25 września 2008 |
| tak | tak (WaveNet) | tak | nie | tak |
sq | albański | 30–31 stycznia 2009 |
| tak | tak (eSpeak) | tak | nie | tak |
et | estoński | 30–31 stycznia 2009 |
| tak | tak (WaveNet) | tak | nie | tak |
ga | galicyjski | 30–31 stycznia 2009 |
| tak | nie | tak | nie | tak |
mt | maltański | 30–31 stycznia 2009 |
| tak | nie | nie | nie | tak (tylko w czasie rzeczywistym) |
th | tajski | 30–31 stycznia 2009 |
| tak | tak (WaveNet) | tak | tak | tak |
tr | turecki | 30–31 stycznia 2009 |
| tak | tak (WaveNet) | tak | nie | tak |
hu | węgierski | 30–31 stycznia 2009 |
| tak | tak (WaveNet) | tak | nie | tak |
fa | perski | 18 czerwca 2009 |
| tak | nie | tak | nie | tak |
af | afrikaans | 23–25 sierpnia 2009 |
| tak | tak (WaveNet) | tak | nie | tak |
be | białoruski | 23–25 sierpnia 2009 |
| tak | nie | nie | nie | tak |
ga | irlandzki | 23–25 sierpnia 2009 |
| tak | nie | nie | nie | tak |
is | islandzki | 23–25 sierpnia 2009 |
| tak | tak (WaveNet) | tak | nie | tak |
yi | jidysz | 23–25 sierpnia 2009 |
| nie | nie | nie | nie | nie |
mk | macedoński | 23–25 sierpnia 2009 |
| tak | nie | tak | nie | tak |
ms | malajski | 23–25 sierpnia 2009 |
| tak | tak (WaveNet) | tak | nie | tak |
sw | suahili | 23–25 sierpnia 2009 |
| tak | tak (eSpeak) | tak | nie | tak |
cy | walijski | 23–25 sierpnia 2009 |
| tak | nie | nie | nie | tak |
ht | kreolski (Haiti) | 28–29 stycznia 2010 |
| tak | nie | nie | nie | tak |
az | azerski | 13 maja 2010 | tak | nie | tak | nie | tak | |
eu | baskijski | 13 maja 2010 |
| tak | nie | tak | nie | tak |
ka | gruziński | 13 maja 2010 |
| tak | nie | tak | nie | nie |
hy | ormiański | 13 maja 2010 |
| tak | nie | tak | nie | nie |
ur | urdu | 13 maja 2010 |
| tak | tak (WaveNet) | tak | nie | tak |
la | łaciński | 29–30 września 2010 | tak | tak (WaveNet, identyczny z włoskim) | nie | nie | tak | |
bn | bengalski | 19–20 czerwca 2011 |
| tak | tak (WaveNet) | tak | nie | tak |
gu | gudżarati | 19–20 czerwca 2011 |
| tak | tak (WaveNet) | tak | nie | tak (nie w czasie rzeczywistym) |
kn | kannada | 19–20 czerwca 2011 |
| tak | tak (WaveNet) | tak | nie | tak (nie w czasie rzeczywistym) |
ta | tamilski | 19–20 czerwca 2011 |
| tak | tak (WaveNet) | tak | nie | tak |
te | telugu | 19–20 czerwca 2011 |
| tak | tak (WaveNet) | tak | nie | tak |
eo | esperanto | 22 lutego 2012, ~21:30 | tak | nie | nie | nie | tak | |
lo | laotański | 12–13 września 2012 |
| tak | nie | tak | nie | nie |
km | khmerski | 19 kwietnia 2013, ~1:00 |
| tak | tak (WaveNet) | tak | nie | nie |
bs | bośniacki | 8 maja 2013, ~2:00 |
| tak | tak (eSpeak) | nie | nie | tak |
ceb | cebuański | 8 maja 2013, ~2:00 | tak | nie | nie | nie | tak | |
hmn | hmong | 8 maja 2013, ~2:00 | tak | nie | nie | nie | tak (tylko w czasie rzeczywistym) | |
jw | jawajski | 8 maja 2013, ~2:00 |
| tylko w aplikacji | tak (WaveNet) | tak | nie | tak |
mr | marathi | 8 maja 2013, ~2:00 |
| tak | tak (WaveNet) | tak | nie | tak |
ha | hausa | 9 grudnia 2013, ~23:00 |
| nie | nie | nie | nie | tak |
ig | igbo | 9 grudnia 2013, ~23:00 |
| nie | nie | nie | nie | tak |
yo | joruba | 9 grudnia 2013, ~23:00 |
| nie | nie | nie | nie | tak |
mi | maori | 9 grudnia 2013, ~23:00 |
| tak | nie | nie | nie | tak |
mn | mongolski | 9 grudnia 2013, ~23:00 |
| tak | nie | tak | nie | tak |
ne | nepalski | 9 grudnia 2013, ~23:00 |
| tak | tak (WaveNet) | tak | nie | tak |
pa | pendżabski | 9 grudnia 2013, ~23:00 |
| tak | tylko w aplikacji (WaveNet) | tak | nie | tak (nie w czasie rzeczywistym) |
so | somalijski | 9 grudnia 2013, ~23:00 |
| tak | nie | nie | nie | tak (tylko w czasie rzeczywistym) |
zu | zulu | 9 grudnia 2013, ~23:00 |
| tak | nie | tak | nie | tak |
my | birmański | 11 grudnia 2014 |
| tak | tak (WaveNet) | tak | nie | nie |
ny | cziczewa | 11 grudnia 2014 |
| tak | nie | nie | nie | tak |
kk | kazachski | 11 grudnia 2014 |
| tak | nie | tak | nie | tak |
ml | malajalam | 11 grudnia 2014 |
| tak | tak (WaveNet) | tak | nie | tak (nie w czasie rzeczywistym) |
mg | malgaski | 11 grudnia 2014 |
| tak | nie | nie | nie | tak |
st | sotho | 11 grudnia 2014 |
| nie | nie | nie | nie | tak |
su | sundajski | 11 grudnia 2014 |
| tak | tak (WaveNet) | tak | nie | tak |
si | syngaleski | 11 grudnia 2014 |
| tak | tak (WaveNet) | tak | nie | nie |
tg | tadżycki | 11 grudnia 2014 |
| tak | nie | nie | nie | tak |
uz | uzbecki | 11 grudnia 2014 |
| tak | nie | tak | nie | tak |
am | amharski | 17 lutego 2016, ~16:30 |
| tak | nie | tak | nie | nie |
fy | fryzyjski | 17 lutego 2016, ~16:30 | tak | nie | nie | nie | tak | |
haw | hawajski | 17 lutego 2016, ~16:30 | tak | nie | nie | nie | tak | |
ky | kirgiski | 17 lutego 2016, ~16:30 |
| tak | nie | nie | nie | tak (tylko w czasie rzeczywistym) |
co | korsykański | 17 lutego 2016, ~16:30 | tak | nie | nie | nie | tak | |
ku | kurdyjski | 17 lutego 2016, ~16:30 |
| tak | nie | nie | nie | tak (tylko w czasie rzeczywistym) |
lb | luksemburski | 17 lutego 2016, ~16:30 |
| tak | nie | nie | nie | tak (tylko w czasie rzeczywistym) |
ps | paszto | 17 lutego 2016, ~16:30 |
| nie | nie | nie | nie | tak |
sm | samoański | 17 lutego 2016, ~16:30 | tak | nie | nie | nie | tak | |
sn | shona | 17 lutego 2016, ~16:30 |
| tak | nie | nie | nie | tak |
sd | sindhi | 17 lutego 2016, ~16:30 |
| nie | nie | nie | nie | tak (tylko w czasie rzeczywistym) |
gd | szkocki gaelicki | 17 lutego 2016, ~16:30 | tak | nie | nie | nie | tak | |
xh | xhosa | 17 lutego 2016, ~16:30 |
| tak | nie | nie | nie | tak |
or | orija | 27 lutego 2020, ~17:30 |
| nie | nie | nie | nie | tak (nie w czasie rzeczywistym) |
rw | ruanda-rundi | 27 lutego 2020, ~17:30 |
| nie | nie | nie | nie | tak |
tt | tatarski | 27 lutego 2020, ~17:30 |
| nie | nie | nie | nie | tak |
tk | turkmeński | 27 lutego 2020, ~17:30 |
| nie | nie | nie | nie | tak |
ug | ujgurski | 27 lutego 2020, ~17:30 |
| nie | nie | nie | nie | tak (tylko w czasie rzeczywistym) |
as | asamski | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) |
| tak | nie | nie | brak danych | brak danych |
ay | ajmara | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) | nie | nie | nie | brak danych | brak danych | |
bm | bambara | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) | nie | nie | nie | brak danych | brak danych | |
bho | Bhodźpuri | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) |
| nie | nie | nie | brak danych | brak danych |
dv | Divehi | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) | nie | nie | nie | brak danych | brak danych | |
doi | dogri | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) |
| nie | nie | nie | brak danych | brak danych |
ee | ewe | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) | nie | nie | nie | brak danych | brak danych | |
gn | guarani | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) | nie | nie | nie | brak danych | brak danych | |
ilo | Ilokano | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) | nie | nie | nie | brak danych | brak danych | |
qu | keczua | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) | nie | nie | nie | brak danych | brak danych | |
gom | Konkani | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) |
| nie | nie | nie | brak danych | brak danych |
kri | krio | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) | nie | nie | nie | brak danych | brak danych | |
ckb | kurdyjski (sorani) | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) |
| nie | nie | nie | brak danych | brak danych |
ln | lingala | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) | nie | nie | nie | brak danych | brak danych | |
lg | luganda | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) | nie | nie | nie | brak danych | brak danych | |
mai | maithili | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) |
| nie | nie | nie | brak danych | brak danych |
mni-Mtei | meiteilon (manipuri) | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) |
| nie | nie | nie | brak danych | brak danych |
lus | mizo | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) | nie | nie | nie | brak danych | brak danych | |
om | oromo | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) | nie | nie | nie | brak danych | brak danych | |
sa | sanskryt | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) |
| nie | nie | nie | brak danych | brak danych |
nso | Sepedi | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) | nie | nie | nie | brak danych | brak danych | |
ti | tigrinia | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) |
| tak | nie | nie | brak danych | brak danych |
ts | Tsonga | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) | nie | nie | nie | brak danych | brak danych | |
ak | twi | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) | nie | nie | nie | brak danych | brak danych |
Przykładowe tłumaczenie z czeskiego (2021) | |
Autor | |
---|---|
Pierwsze wydanie | styczeń 2010 (Android) 8 lutego 2011 (iOS) |
System operacyjny | Android, iOS |
Rodzaj | serwis tłumaczeniowy |
Strona internetowa |
Aplikację mobilną wydano najpierw na system Android w styczniu 2010, a 8 lutego 2011 na iOS. Oprócz tego, istniała wcześniejsza aplikacja HTML dla urządzeń z iOS, powstała w sierpniu 2008. Poza podstawowymi funkcjami, aplikacja pozwala na użytkowanie w trybie offline, tłumaczenie napisów z aparatu oraz plików graficznych (dzięki Word Lens), wykonywanie tłumaczeń w innych aplikacjach, oraz tłumaczenie ludzkiej mowy na żywo w trybie konwersacji lub w trybie transkrypcji[potrzebny przypis].
Google nadal oferuje API serwisu, pomimo tego, że 26 maja 2011 ogłosiło zakończenie jego funkcjonowania, z datą końcową 1 grudnia. Ze względu na dużą popularność API do tego nie doszło, ale od tego momentu API stało się płatne.
Google pozwala wolontariuszom ulepszać tłumaczenia (crowdsourcing) przez aplikację Google Crowdsource, lub opcję „Społeczność” na stronie internetowej. Użytkownicy mogą tłumaczyć podane zdania, oceniać istniejące tłumaczenia, a w przypadku języków BETA , testować wczesną wersję translatora. Badania pokazują, że nawyki użytkowników pozwalają niwelować błędne tłumaczenia nawet w 40% przypadków[brak potwierdzenia w źródle]. Oprócz obecnie dostępnych języków, można wybrać też[potrzebny przypis]:
kod | język |
---|---|
ace | aceh |
ady | adygejski |
aa | afar BETA |
ahr | ahirani |
alt | ałtajski południowy |
an | aragoński |
av | awarski |
bfy | bagheli |
bxg | bangala |
ba | baszkirski |
bbc | batak toba |
bci | baule |
bal | beludżi |
bew | betawi |
brx | bodo BETA |
br | bretoński |
kjh | chakaski |
ctg | chatgaya |
toi | chitonga |
kmz | chorasański turkmeński |
sr-ME | czarnogórski |
ce | czeczeński |
chr | czirokeski |
cv | czuwaski |
hne | ćhattisgarhi |
dcc | dakhini |
luo | dholuo |
dyu | diula |
dz | dzongkha |
bin | edo |
efi | efik |
ish | esan |
fon | fon |
ff | Fulfulde BETA |
gag | gagauski |
gbm | garhwali |
bgc | haryanvi |
hil | hiligaynon |
iu | inuktitut |
iso | isoko |
sah | jakucki |
kl | kalaallisut |
kam | kamba |
yue | kantoński |
kr | kanuri |
krc | karaczajsko-bałkarski |
kaa | karakałpacki |
qxq | kaszkajski |
ks | kaszmirski |
quc | kicze |
ki | kikuju |
trp | kokborok |
swc | kongijski suahili |
kum | kumycki |
lkt | lakota |
lu | Luba |
lua | luba |
mad | madurski |
mag | magahi |
meo | malajski kedah |
mfa | malajski pattani |
mni | manipuri BETA |
rwr | marwari |
yua | maya BETA |
mzn | mazanderański |
min | minangkabau |
mos | mossi |
nv | nawaho |
nr | ndebele południowy |
new | newarski BETA |
oc | oksytański |
pam | pampango |
pcm | pidgin nigeryjski |
se | północnolapoński |
raj | radżastani |
rkt | rangpuri |
rm | retoromański |
rhg | rohingya |
sck | sadri |
slr | salarski |
sg | sango |
sat | santali BETA |
skr | saraiki BETA |
ser | serrano |
sjp | surdźapuri |
scn | sycylijski |
syl | sylheti |
cjs | szorski |
ber | tamazight BETA |
sty | tatarski syberyjski |
tiv | tiw |
tpi | tok pisin |
tn | tswana |
tsc | tswa |
tyv | tuwiński |
bo | tybetański BETA |
urh | urhobo |
uum | urum |
vah | Varhadi-Nagpuri |
ve | venda |
wo | wolof |
zza | zazaki |
za | zhuang |
sgs | żmudzki |
Oprócz tego, (co najmniej) 3 języki są niedostępne w menu: balijski (kod: ban), kreolski seszelski (kod: crs) i rundi (kod: rn)[potrzebny przypis].
Od listopada 2016, Google korzysta z GNMT, a wcześniej – z mechanizmu statycznego tłumaczenia maszynowego i SYSTRAN[potrzebny przypis].
Google Neural Machine Translation (GNMT) opracowano w celu zwiększenia płynności i dokładności serwisu. System ten wykorzystuje dużą, sztuczną sieć neuronową (dokładniej sieć długiej pamięci krótkoterminowej) zdolną do deep learningu. Dzięki wykorzystaniu metody tłumaczenia maszynowego opartą na próbkach (EBMT), w której system „uczy się z milionów przykładów”, GNMT pozwala poprawić jakość tłumaczeń. Według badaczy Google technika ta umożliwia przekładanie „całych zdań naraz, a nie kawałek po kawałku. Zwraca uwagę na szerszy kontekst, aby znaleźć najbardziej odpowiednie tłumaczenia, które następnie przestawia i dostosowuje tak, aby przypominały ludzką mowę z poprawną gramatyką”. Zamierzona przez GNMT architektura została zaimplementowana dla wszystkich języków obsługiwanych przez serwis. Dzięki kompleksowej strukturze, „system z czasem uczy się tworzyć lepsze, bardziej naturalne tłumaczenia”. Sieć GNMT jest zdolna do międzyjęzykowego tłumaczenia maszynowego, która koduje „semantykę zdania, niż zapamiętując frazę do tłumaczenia”, a system nie wymyślił własnego języka uniwersalnego, ale korzysta z „podobieństw znalezionych między wieloma językami”. GNMT zostało wypuszczone dla polskiego w marcu 2017.
GNMT umożliwia tłumaczenie bezpośrednio z jednego języka na inny (L1 → L2), co jest poprawą względem wcześniejszych wersji, które najpierw tłumaczyły na język angielski, a dopiero potem na język docelowy (L1 → EN → L2). Jest to możliwe dzięki „tłumaczeniu zero-shot”, które dotyczy par języków, których system nie oferował bezpośrednio (np. z japońskiego na koreański)[potrzebny przypis].
Przed październikiem 2007 tłumaczenia między językami innymi niż arabski, chiński i rosyjski działały w oparciu o SYSTRAN – silnik oprogramowania, który był stosowany np. w Babel Fish. Od tego czasu, do implementacji GNMT Tłumacz Google używał zastrzeżonej technologii wewnętrznej opartej na statystycznym tłumaczeniu maszynowym.
System ten nie stosował się do zasad gramatycznych – jego algorytmy były oparte na analizie statystycznej, a nie na tradycyjnej analizie opartej na regułach gramatyki. Oryginalny twórca systemu, Franz Josef Och, skrytykował skuteczność algorytmów opartych na regułach, w zamian popierając metody statystyczne. Oryginalne wersje serwisu wykorzystywały metodę zwaną statystycznym tłumaczeniem maszynowym, opartą na badaniach Ocha, zwycięzcy konkursu DARPA na tłumaczenie maszynowe w 2003 roku. Och był szefem grupy tłumaczeń maszynowych Google, aż do momentu dołączenia do Human Longevity, Inc. w lipcu 2014.
Według Ocha solidna podstawa do stworzenia użytecznego systemu statystycznego dla nowej pary języków od podstaw powinna składać się z dwujęzycznego korpusu tekstowego (lub kolekcji równoległej) o objętości ponad 150–200 milionów słów i dwóch jednojęzycznych korpusów, z których każdy powinien zawierać ponad miliarda słów. Modele statystyczne z tych danych byłyby następnie wykorzystywane do tłumaczenia między językami. Do zebrania tak ogromnej ilości danych językowych Google wykorzystał dokumenty i transkrypty od Organizacji Narodów Zjednoczonych i Parlamentu Europejskiego. ONZ zazwyczaj publikuje dokumenty w sześciu oficjalnych językach, co ułatwiło zebranie ogromnego korpusu[potrzebny przypis].
Tłumacz Google nie tłumaczył bezpośrednio z jednego języka na inny (L1 → L2). W zamian, w większości przypadków treści były tłumaczone najpierw na angielski, a dopiero potem na język docelowy (L1 → EN → L2)[potrzebny przypis].
Przy generowaniu tłumaczenia Tłumacz Google szukał wzorców w setkach milionów dokumentów, które zostały już przełożone przez ludzkich tłumaczy, aby znaleźć najtrafniejsze odwzorowanie. Wykrywszy je, Tłumacz mógł w przemyślany sposób domyślić się, jak powinno brzmieć poprawne tłumaczenie[potrzebny przypis].
Język | WordNet | Na licencji |
---|---|---|
albański | Albanet | CC BY 3.0/GPL 3 |
angielski | Princeton Wordnet | Wordnet |
arabski | Arabic Wordnet | CC BY-SA 3 |
chiński | Chinese Wordnet | Wordnet |
duński | Dannet | Wordnet |
fiński | FinnWordnet | Wordnet |
francuski | WOLF (WOrdnet Libre du Français) | CeCILL-C |
galicyjski | Multilingual Central Repository | CC BY-3.0 |
hebrajski | Hebrew Wordnet | Wordnet |
hiszpański | Multilingual Central Repository | CC BY-3.0 |
indonezyjski | Wordnet Bahasa | MIT |
japoński | Japanese Wordnet | Wordnet |
kataloński | Multilingual Central Repository | CC BY-3.0 |
kreolski (Haiti) | MIT-Haiti Initiative | CC-BY 4.0 |
malajski | Wordnet Bahasa | MIT |
norweski | Norwegian Wordnet | Wordnet |
perski | Persian Wordnet | wolny użytek |
polski | plWordnet | Wordnet |
portugalski | OpenWN-PT | CC BY-SA-3.0 |
tajski | Thai Wordnet | Wordnet |
włoski | MultiWordnet | CC BY-3.0 |
Tłumacz Google nie jest tak dokładny, jak tłumaczenie ludzkie. Jeżeli tekst jest krótki, poprawnie sformułowany i używa formalnego słownictwa (w szczególności kiedy oba języki mają duże korpusy językowe), wynik jest podobny do satysfakcjonującego, lecz w im mniejszym stopniu spełnia te kryteria, tym wynik będzie gorszy. Ludzka ocena wykazała, że tłumaczenia przekazywały zamysł powyżej 50% tylko dla 35 języków z 102. W przypadku par bez angielskiego po którejkolwiek stronie, liczba ta wynosi około 1%. Badania z 2011 pokazały, że Google uzyskał wynik trochę większy niż na zaliczenie egzaminu z angielskiego na UCLA. Pod względem formalności, spójności, długości oraz struktury zdań wyniki Tłumacza są podobne względem tłumaczeń ludzkich. Podczas badań Google z 2018, użytkownicy języków mieli ocenić tłumaczenia w skali od 0 do 6 – średnia wyniosła 5,43.
Jakość tłumaczeń różni się między językami ze względu na powszechność języków i źródeł na ich temat. Wiele języków azjatyckich i afrykańskich (z wyjątkami np. afrikaans i chińskiego) wypada gorzej w porównaniu z tymi europejskimi, a tych rdzennych z Oceanii i Ameryk nie ma prawie wcale[potrzebny przypis].
Działając jako słownik, Tłumacz często popełniał błędy względem słów polisemicznych – 100 najpopularniejszych słów w korpusie słownika Oxford ma średnio 15 znaczeń, a większość znanych wyrazów ma ich co najmniej 2. Ponieważ translator opierał się na tłumaczeniu statystycznym, a tłumaczenia korzystały z angielskiego jako bazy, w niektórych przypadkach oznaczało to błędne tłumaczenia. Jeżeli w bazie nie ma wyrazu, serwis jest w stanie wymyślić dla niego tłumaczenie.
Tłumacz Google, jak inne serwisy tłumaczeniowe, posiada ograniczenia. Serwis ogranicza liczbę znaków (5000), które mogą być jednorazowo przetłumaczone, lecz można to obejść tłumacząc tekst w pliku. O ile serwis pozwala użytkownikowi zrozumieć tekst, często tłumaczy słowo-do-słowa, co czyni tłumaczenia niedokładnymi. Pod względem gramatycznym, serwis zmaga się z rozróżnianiem aspektu dokonanego i niedokonanego w językach romańskich, co przyczynia się do błędów, których by nie napotkał ludzki tłumacz. Translator borykał się także z trybem łączącym oraz francuskim tu i vous (w angielskim oba tłumaczy się jako you). Tłumacz ma problemy z rozumieniem polisemii i związków frazeologicznych.
Tuż po wystartowaniu serwisu, wygrał on międzynarodowy turniej w tłumaczeniu maszynowym z angielskiego na chiński i arabski.
W 2017 Tłumacz Google został użyty podczas rozprawy sądowej w Teesside Magistrates’ Court, ponieważ nie można było zarezerwować tłumacza dla oskarżonego mówiącego po chińsku.
This article uses material from the Wikipedia Polski article Tłumacz Google, which is released under the Creative Commons Attribution-ShareAlike 3.0 license ("CC BY-SA 3.0"); additional terms may apply (view authors). Treść udostępniana na licencji CC BY-SA 4.0, jeśli nie podano inaczej. Images, videos and audio are available under their respective licenses.
®Wikipedia is a registered trademark of the Wiki Foundation, Inc. Wiki Polski (DUHOCTRUNGQUOC.VN) is an independent company and has no affiliation with Wiki Foundation.