Introdução a criar imagens

Live gravada em:

Nessa nossa aula introdutória vou te contar tudo que você precisa saber sobre criação de imagem por inteligência artificial generativa. Ok ok, nem tudo, já que temos muitas aulas pela frente!

Atualizações da aula:

Como a IA gera imagens

A IA é treinada com um enorme banco de dados de imagens, aprendendo a identificar objetos, cenários, etc. através de tags.

As imagens são simplificadas em pontos-chave ou "gosmas". Ao solicitar uma imagem nova, a IA junta essas "gosmas" como um quebra-cabeça para formar a imagem desejada.

Processo de criação

A IA analisa milhares de imagens já existentes
Identifica objetos e elementos comuns nessas imagens (cachorro, grama, árvore etc.)
Simplifica esses elementos em pontos-chave
Ao receber um prompt (texto descritivo) do usuário, ela mescla os pontos-chave necessários para formar uma nova imagem

Ferramentas populares

Existem várias opções de ferramentas de IA generativa de imagens. Algumas das mais populares:

Midjourney: ótima qualidade, indicada para iniciantes
DALL-E: primeira ferramenta do gênero, com resultados interessantes
Stable Diffusion: versátil e de fácil uso
Firefly: integração com Photoshop

Exemplos de uso

Essas ferramentas permitem uma infinidade de usos criativos:

Criar personagens fictícios em cenários improváveis (ex: o Papa)
Misturar conceitos aleatórios (mulher vestindo um alface)
Criar representações visuais de conceitos complexos (funcionamento de um microchip)

Começando com Stable Diffusion

Para iniciantes, recomendo começar experimentando o Stable Diffusion. É bastante intuitivo.

Faça testes combinando conceitos nos prompts
Inspire-se nos exemplos deste post, mas abuse de sua criatividade :)
Divirta-se!

Considerações finais

As possibilidades para criação de imagens com IA são infinitas. Essas ferramentas facilitam o processo criativo, e estamos apenas começando a explorar seu potencial.

Espero que este post tenha sido uma introdução útil ao tema. Deixe suas dúvidas nos comentários!

Hora de CR_IAR!

Escolha algum transformer de imagem – eu sugiro o Stable Diffusion, por que é barato e fácil pra começar – e já vai gerando algumas imagens, usando os prompts da aula como referência.

Transcrição da Aula

Oi gente, nessa aula aqui eu vou falar, vou dar uma introdução aí sobre criar imagens, que é uma dessas grandes funções da inteligência artificial generativa que todo mundo já conhece, todo mundo já viu aí algumas coisas feitas por aí, e é, junto com o ChatGPT, eu acho que uma das funções mais famosas que a gente tem que fica mais na cara de como que você pode usar isso, né?Ficou tão famoso até agora no começo de 2023, que até o Papa ficou envolvido nisso, né? No caso, com essa imagem aqui. Porque essa imagem ficou famosa, saiu na Vogue, saiu um monte de revistas, e poucas pessoas repararam logo de começo, assim, de princípio, que é uma imagem falsa, né? Não é o Papa realmente, não preciso nem explicar isso aqui, afinal, olha o ambiente onde estamos, né?

Quando o New York Times foi publicar, ele até colocou esse selinho aqui, gerado por inteligência artificial, porque é uma das grandes discussões que tem agora, enfim. E essa imagem, ela é muito bem gerada, no caso, tá, né? É muito bem... É difícil você perceber, se você olhar, assim, apenas se você olha muito pertinho aqui pra cruz dele, se você olhar em alguns lugares aqui da roupa e tal, que você consegue perceber isso. Não é que ele vai ter seis dedos ou coisa assim, que é o que a gente imaginava antes, né?

E assim, e é uma ferramenta, esse Papa foi criado, essa imagem dele, pelo Midjourney, que é um Transformer, é a edicação de imagem, a gente vai falar mais sobre ele aí pra frente, e é uma ferramenta que todo mundo tem acesso, né? Qualquer um pagando ali, nem precisa pagar, na verdade, às vezes, né? Qualquer um tem acesso.

E inclusive eu, que resolvi colocar o Papa pra avarrer a casa, pra lavar a louça, né? Aí, quando a gente veria o Papa lavando louça, se não fosse por inteligência artificial, né? E não só isso, eu também resolvi fazer o Papa andar de montanha-russa, ou sei lá,participar de uma luta de MMA.

Eu adoro, inclusive, o detalhezinho aqui de colocar a Santa com parte da roupa dele, é muito bom, né? Isso aqui é relativamente fácil de criar, se a gente saber como fazer isso, né?

E é por isso que você está no Cria, que vai ensinar a fazer isso também.

E assim, e também levei o Papa pra onde? No Brasil, pra jogar, muito besta, né? Pra jogar a Voleis de Praia, ali em Copacabana, e também pra tocar com Olodum ali no Pelourinho, né?Enfim, tudo isso daí é gerado por inteligência artificial, obviamente, como é que ela funciona?

Vou dar, assim, um breve, bem breve resumo mesmo em como funciona a inteligência artificial, porque é uma coisa que a gente não precisa saber muito, né? Você não precisa saber como funciona o computador pra você usar o computador, enfim. Mas eu acho que é interessante.

Quando você tem uma imagem, então, por exemplo, na inteligência artificial, quando a gente fala do Midjourney, do Stable Diffusion, o que for? Isso é pra você poder gerar esse Transformer, né? Ele foi treinado, né? E como que ele foi treinado? Basicamente, ele vê várias, várias imagens, e ele sabe taguer essas imagens, sabe o que tem nessas imagens, então sabe que é um cachorro, bebê, bege, que tem uma coleira, que tá no gramado, que tá num chão de tal, que tem as folhazinhas, ou seja, ele entende isso daí, porque é por identificação de imagem, e aí pega todas essas tags possíveis e mostra essas imagens. Estou simplificando bem, né? Simplificando bem.

E essa imagem aqui no caso do cachorrinho, ela vai ser, vamos dizer assim, separada e simplificada ao ponto de ficar apenas grandes pontos. Imagina quase que fosse uma grande góssima, assim, essa imagem do cachorro. E você faz isso com várias e várias imagens, né? Então, várias e várias imagens de cachorro, você tem essas grandes góssimas, vou chamar de góssima, mas assim, termo, é o termo científico esse, obviamente, né? Não é. Mas, então, você tem essas imagens que, vamos dizer, são pequenos pontos, estou chamando aqui de góssimas, pra definir cada um desses cachorros.

E ele encontra, dentro do padrão, por isso que a gente fala de machine learning, não sei o quê, ele encontra quais são os padrões que definem um grama, quais são os padrões que definem o cachorro, o que que é, o fucinho, a orelha, o que que são essas partes do cachorro, essas coisas assim. Tudo isso daí é definido porque você vai treinando a máquina.

Então, ela vê uma vez, duas vezes, três vezes, ela vai aprendendo, quando ela vê 300 mil vezes fotos de cachorro, ela já entende melhor o que que é o quê e o que que está em cada lugar, porque ela transformou tudo isso aí nessas grandes góssimas.

Quando você pede pra máquina, para o Transformer, criar uma imagem pra você, o que que ele faz? Ele pega dessa, por isso que eu falei góssima, porque ele cria uma piscina em cima disso. Então, pra grama eu preciso dessas informações aqui, pra cachorro eu preciso dessas informações aqui. E aí, quando eu peço, por exemplo, ah, um cachorro bebê deitado na grama de algum lugar, ele pode criar essa imagem aqui pra mim.

Então, ele pega essas várias góssimas, né, junta tudo isso daí, muito bom explicar desse jeito, né, junta tudo isso daí pra formar um cachorro. Então, ele sabe quais são as características pra formar um cachorro, pra formar uma árvore, pra ter esse tipo de cenário, pra ter o tipo de grama, isso aqui é uma imagem girada por uma inteligência artificial também, girada pelo Midjourney no caso, né.

E você percebe bem isso? Quando a gente vê, por exemplo, eu esqueci de abrir, obviamente, mas eu vou abrir enquanto eu estou falando com vocês. E você vê bem esse processo aqui de transformação, né, de transformação, na verdade, de virar uma góssima pro nada, quando você vê em alguns programas que eles dão as fases que você tá colocando pra fazer a imagem. Midjourney é um deles, vou mostrar um exemplo pra vocês, né.

E aí, enquanto isso, enquanto tá carregando ali, é onde que você cria essas imagens, como eu falei, Midjourney é um deles, mas tem outros. O que ficou mais... A primeira coisa de todos foi o DALL-E. O DALL-E, ele é da OpenAI, então, é a mesma criadora do ChatGPT e tudo mais. E ele é o primeiro a achar uma atenção, ele tem bons resultados, mas eu acho ele meio caro. Ele é legal, assim, pro teste, vale o teste, vale vocês também verem com o que é, porque tem algumas coisas legais.

Por exemplo, inpainting, que eu vou... Tudo isso daí, eu vou falar em outras aulas também, né. Mas inpainting, que é você tirar uma parte da imagem pra criar outra. É melhor no DALL-E do que nos outros transformas, por exemplo, né.

Aí aqui, no caso, tô aqui com Midjourney aberto. Se eu for buscar, por exemplo... Depois, tem outra aula específica só pra ensinar como uso Midjourney, tá. Mas se eu for jogar, por exemplo, Photo of a Puppy Dog, por exemplo, aqui, ele vai começar a criar a partir dessa gosma que eu falei.

Então, aqui no Midjourney, ele chega a mostrar um pouquinho o processo, às vezes eu tenho que esperar um pouquinho mais pra entrar, e obviamente eu tenho que esperar mais só porque eu estou apresentando isso daqui pra vocês, né.

Então, por exemplo, aqui, ele já começa a formar, tá vendo? Ele tá tentando puxar dessa gosma, criar essa imagem. Você vai vendo que aos poucos, essa imagem vai tendo não só mais definição, mas mais elementos também. Porque ele sabe o que é. Então, nesse caso aqui, como eu só dei, basicamente, duas ordens, né, três. Quer dizer, que é foto, cachorro, bebezinho, né, filhote de cachorro.

Então, ele vai puxando a partir dessas informações, porque ele já viu vários puppies, ele já sabe o que é uma foto, por características de fotos, e ele sabe o que é um cachorro. Então, até o ponto de ele girar essa imagem aqui.

Então, o DALL-E, como eu estava falando, é um desses programas, um outro desses transformers que você pode usar é o Stable Diffusion. O outro, que é o Stable Diffusion, ele tem suas características também. Depois eu vou falar algum, melhora na próxima aula, qual que é a diferença de cada um deles pra vocês.

E o Midjourney, que é o que eu tô usando aqui, que acabou de formar a imagem do cachorrinho, por exemplo, tá vendo? Ó, como eu coloquei bem simplizinho, então ele me deu essa imagem bem simplizinha.

A gente vai falar também sobre como você trabalha com Midjourney, entre outros, em outras aulas por aí.

E o Firefly, que é um novo da Adobe. Ele foi criado agora em maio, que é quando eu tô gravando isso daqui, mais de 2023. Ele foi lançado, na verdade, agora e aberto ao público, não sei o que.

A vantagem dele é que pode ser usado no Photoshop, depois eu vou falar melhor sobre isso. Então, é legal vocês terem essa noção de que vocês podem usar alguns transformers diferentes. Tem outros, além desses, que são os mais famosos, que estão sendo mais usados.

Então, DALL-E, Stable Diffusion, Midjourney e Firefly, os que eu mais uso. Midjourney, atualmente, eu uso bastante ele, tenho uma assinatura dele. E uso também Stable Diffusion, para algumas coisas mais específicas, que eu não preciso tanto de uma qualidade.

Na próxima aula, eu vou falar mais sobre isso.

Enfim, quando você cria imagem, é justamente isso que você faz. Você manda uma informação para ela, no caso um prompt de texto. E dentro de tudo isso que ele foi criado, treinado, como eu falei para vocês, ele vai tentar entender o que significa nesse caso aqui.

Retrato de uma mulher brasileira feliz de mais ou menos 30 anos, em Copacabana, no Rio de Janeiro.

Então, ele tem que entender tudo isso daí e juntar dentro de uma imagem. Então, pensa que ele vai juntando a gosma do que é feliz, a gosma do que é mulher, a gosma do que é brasileiro, a gosma do que é mulher brasileira. Ele vai tentando achar tudo isso daí, do que é o Rio, o que é Copacabana e tal, para criar uma imagem como essa daqui.

Então, essa daqui é uma imagem criada pelo Midjourney, uma boa imagem, inclusive, que está melhor que muito banco de imagem, por aí e tudo mais, está bem legal. E ela criou a partir disso.

Quero dar alguns outros exemplos também de prompt, sem falar muito sobre isso, que a gente vai ter uma aula só sobre prompt também, como você cria prompt melhores. Mas, basicamente, essa daqui, por exemplo, uma mulher bonita, sempre você tem que fazer esses prompt em inglês, nos programas, porque é melhor.

O resultado é muito melhor, tá? Você pode até tentar em português, mas o resultado é sempre melhor em inglês, então você pode usar em Google Translate ou o próprio chat de PT, para traduzir para você caso você não saiba.

Então, nesse caso aqui, uma mulher jovem, bonita, a brisa está movimentando seus cabelos curtos, uma orelha está visível, super realista, imagem super realista. Isso daqui também é um prompt bem certeiro, bem específico, sem grandes coisas.

Esse daqui também é um prompt bem específico, só que com alguns parâmetros que depois eu vou explicar o que que é. Então, uma arte de Dinosaur, Overaptor.

Esse daqui também, por exemplo, então você pode ver isso aqui, tem uma certa realidade, isso aqui também é real também, que é como se fosse um microprocessador, o circuito microchip, criando aí a visão de uma cidade.

Então, isso daí você pode já ver como você pode usar para juntar algumas informações, inclusive para juntar a informação aqui, uma mulher vestindo um alface.

Então, aqui estão os prontos, alguns prontos de exemplo e tal. E aqui, um outro também. Enfim, você pode fazer várias coisas em vários estilos diferentes, do jeito que você quiser.

Esse daqui é um prompt super exagerado, com várias características. Cada uma delas eu vou explicar melhor em outra aula, para vocês verem, porque isso aqui tudo foi criado pelo Midjourney em todas as imagens.

Enfim, mas agora é hora de você criar. Então, eu quero que você escolhe algum Transformer, eu sugiro o Stable Diffusion, porque é mais fácil, tem aqui nas ferramentas dessa aula está o link para o Stable Diffusion.

Então, nas ferramentas da aula tem o link para tudo, na verdade, que eu falei aqui. E é bom começar por lá. E começa a gerar algumas imagens, vai fazendo uns testes, usa os prontos da tua anterior com referência, vai juntando um pouco as coisas, vai lendo cada uma dessas coisas para você fazer um teste.

Então, por enquanto, ainda não falei sobre prompt e tal, mas, por enquanto, acho legal você começar a fazer esse teste.

Fechou?

Então, por hoje é só pessoal, por essa aula.Até a próxima!

Introdução a criar imagens