Dall-E: Programa de inteligência artificial

DALL-E (estilizado DALL·E) é um programa de inteligência artificial que cria imagens a partir de descrições textuais.

DALL-E
Captura de tela
DALL-E
Uma imagem gerada pelo DALL-E 2 de uma mão robótica desenhando
Desenvolvedor OpenAI
Lançamento 5 de janeiro de 2021 (3 anos)
Página oficial openai.com/blog/dall-e/

Ele usa uma versão de 12 bilhões de parâmetros do modelo GPT-3 Transformer para interpretar entradas de linguagem natural (como "uma bolsa de couro verde em forma de pentágono" ou "uma visão isométrica de uma capivara triste") e gerar imagens. Ele pode criar imagens de objetos realistas ("um vitral com a imagem de um morango azul"), bem como objetos que não existem na realidade ("um cubo com a textura de um porco-espinho"). Seu nome é uma junção de WALL-E e Salvador Dalí.

Muitas redes neurais dos anos 2000 em diante foram capazes de gerar imagens realistas. O DALL-E, no entanto, é capaz de gerá-las a partir de instruções de linguagem natural, que "entende [...] e raramente falha de forma séria".

De acordo com a MIT Technology Review, um dos objetivos do OpenAI era "dar aos modelos de linguagem uma melhor compreensão dos conceitos cotidianos que os humanos usam para dar sentido às coisas".

O DALL-E 3 foi lançado nativamente no ChatGPT para clientes ChatGPT Plus e ChatGPT Enterprise em outubro de 2023, com disponibilidade via API da OpenAI e plataforma "Labs" esperada para o final do ano. A Microsoft implementou o modelo na ferramenta Image Creator do Bing e planeja implementá-lo em seu aplicativo Designer.

História

O DALL-E foi revelado pela OpenAI em 5 de janeiro de 2021.

Em abril de 2022, a OpenAI anunciou o DALL-E 2, alegando que pode produzir imagens fotorrealistas a partir de descrições textuais, juntamente com um editor que permite modificações simples na saída. A partir do anúncio, o software foi declarado ainda em fase de pesquisa, com acesso limitado a usuários beta pré-selecionados. O modelo ainda pode cometer erros graves, incluindo erros que nenhum humano cometeria. DALL-E 2 foi descrito como um modelo que "pode criar imagens e arte originais e realistas a partir de uma descrição de texto. Ele pode combinar conceitos, atributos e estilos."

Arquitetura

O modelo Generative Pre-trained Transformer (GPT) foi desenvolvido inicialmente pela OpenAI em 2018, usando a arquitetura Transformer. A primeira iteração, GPT, foi ampliada para produzir GPT-2 em 2019; em 2020 o modelo foi ampliado novamente para produzir GPT-3, com 175 bilhões de parâmetros.

O modelo de DALL-E é uma implementação multimodal do GPT-3 com 12 bilhões de parâmetros que "troca texto por pixels", treinado em pares texto-imagem da Internet. Ele usa aprendizado de zero-shot para gerar saída de uma descrição e sugestão sem treinamento adicional.

Desempenho

O DALL-E é capaz de gerar imagens em vários estilos, desde imagens fotorrealistas até pinturas e emojis. Ele também pode "manipular e reorganizar" objetos em suas imagens. Uma habilidade observada por seus criadores foi a colocação correta de elementos de design em novas composições sem instruções explícitas: "Por exemplo, quando solicitado a desenhar um rabanete daikon assoando o nariz, tomando um café com leite ou andando de monociclo, o DALL-E geralmente desenha o lenço, mãos e pés em locais plausíveis."

Enquanto o DALL-E exibiu uma ampla gama de habilidades, no lançamento de sua demonstração pública, a maior parte da cobertura se concentrou em um pequeno subconjunto de imagens de saída "surreais" ou "peculiares". Especificamente, a saída de DALL-E para "uma ilustração de um rabanete daikon bebê em um tutu passeando com um cachorro" foi mencionada em peças da Input, NBC, Nature, e outras publicações. Sua saída para "uma poltrona em forma de abacate" também foi notada. Em contraste, foi observado o desenvolvimento não intencional de DALL-E de habilidades de raciocínio visual suficientes para resolver as Matrizes de Raven (testes visuais frequentemente administrados a humanos para medir a inteligência).

Implicações

O DALL-E anuncia "o alvorecer de um novo paradigma de IA conhecido como IA multimodal", na qual os sistemas seriam capazes de combinar e traduzir dados entre vários tipos de informações. Além disso, o DALL-E foi citado como um exemplo de software que exibe criatividade.

Referências

Ligações externas

Dall-E: História, Arquitetura, Desempenho 
Commons
O Commons possui imagens e outros ficheiros sobre DALL-E

Tags:

Dall-E HistóriaDall-E ArquiteturaDall-E DesempenhoDall-E ImplicaçõesDall-E Ligações externasDall-EInteligência artificialPrograma de computador

🔥 Trending searches on Wiki Português:

3.º governo do Estado NovoMarc CucurellaBrasilCoreia do SulSebastião BugalhoPartido Renovação DemocráticaCanvaJogos OlímpicosLista de municípios do Rio Grande do Sul por populaçãoTravestiAdriana EstevesMortes em 2024Israel AdesanyaAmérico TomásInglaterraCampeonato Brasileiro de Futebol - Série CRevolução Russa de 1917CazuzaJorge Nuno Pinto da CostaSeleção Brasileira de FutebolLista de municípios do Brasil por população (2022)EredivisieVladimir BrichtaVasco da GamaLista de episódios de Naruto ShippudenSex and the CityVasco LourençoGoogle MapsOtelo Saraiva de CarvalhoTropa de Elite (filme)Club Deportivo Real TomayapoClub de Regatas Vasco da GamaClub Universitario de DeportesCruzeiro Esporte ClubeAmérica LatinaAníbal Cavaco SilvaProclamação da República do BrasilAçaíJude BellinghamAlessandra NegriniViviane AraújoReino UnidoMoçambiqueLady GagaLisboaPartido Liberal (2006)Felipão (treinador de futebol)Luis GuilhermeMaria da Conceição TavaresEspanhaElon MuskMaria (mãe de Jesus)AlfabetoAbraãoGrândolaAlma GêmeaOnlyFansQuitoEloy CasagrandeSport Club InternacionalPatrícia ReisDemocraciaLista de partidos políticos do BrasilLista de monarcas de PortugalSantos DumontPaulo de CarvalhoPeste NegraChiquinho ScarpaRecifeGatoXVideosMonkey ManAndré VenturaAssociazione Calcio MilanPortugalWilliam HardhamConstituição portuguesa de 1976Lista das canções mais executadas no Brasil em 2000🡆 More