Stable Diffusion, entendendo a tecnologia que cria arte - thumbnail
EditorialSoftwaresTecnologia

Stable Diffusion: como a tecnologia está mudando a Arte

Neste artigo apresentarei uma ferramenta que está mudando o mundo do design e da arte. Saiba mais sobre o Stable Diffusion, um versátil programa capaz de gerar imagens com base em informações digitadas pelo usuário. Se prepare para expandir os limites da imaginação.

Conheça Stable Diffusion

Fundado pela stability.ai em parceria com Runway, escrito em Python e Jupyter Notebook, teve seu primeiro lançamento estável no dia 31 de agosto de 2022. 

O Stable Diffusion é um software que gera imagens através de inteligência artificial alimentada por um banco de imagens sistematicamente descritas utilizadas como referência na produção de novas imagens.

Originalmente foi desenvolvido para gerar imagens a partir de um texto proposto pelo usuário, mas acabou sendo adaptado para outras funções relacionadas.

Stable Diffusion entendendo a tecnologia que cria arte 2 pinguins

O Stable Diffusion é capaz de produzir imagens com diversos estilos. Para olhos desatentos em alguns casos, pode parecer uma fotografia real ou até mesmo alguma obra de um autor famoso.

Uma marca d’água quase invisível é adicionada às suas figuras, mas pode ser facilmente removida em um editor de imagens. Entretanto, o traço das imagens criadas pode ser reconhecido por alguém com familiaridade.

Existem alguns programas semelhantes no mercado, como o DALL-E 2 e o Imagen, todos com código fechado. Em comparação, resultados gerados pelo Stable Diffusion se mostraram algumas vezes superiores à concorrência, com a vantagem de ter o código aberto.

Stable Diffusion, entendendo a tecnologia que cria arte - comparacao
Imagens produzidas pelo Dall-E2 e Stable Diffusion com o mesmo comando: “super cool transformer robot, highly detailed, smooth, octane render”
Fonte: Jim Clyde Monge

Um projeto de código aberto

Por suas funções atraentes, o Stable Diffusion possui uma comunidade bastante grande e ativa, que modifica o programa para remover ou adicionar limitações, além de trabalhar em otimizações.

No início, ele só funcionava em computadores com placa de vídeo NVIDIA, além disso, os desenvolvedores recomendavam que a placa tivesse pelo menos 10 GB de memória. A comunidade rapidamente produziu modificações que diminuíram este requerimento para 4 GB, estendendo o suporte também para placas de vídeo AMD e Apple M1/M2.

Já estão disponíveis camadas de compatibilidade que integram o Stable Diffusion a manipuladores de imagem como GIMP e Photoshop. Também existem alterações que introduzem uma interface gráfica e ferramentas de edição.

Isto agiliza e enriquece o processo de criação, tornando possível, por exemplo, uniformizar a iluminação em montagens, chegando até mesmo a gerar imagens novas baseadas em uma composição. 

Este programa é tão versátil, que a comunidade já produz vídeos incríveis, graças a sua capacidade de gerar imagens em torno do mesmo tema e estética, trazendo um efeito de transição bastante natural. Estão sendo aprimoradas ferramentas que introduzem movimento, portanto veremos cada vez mais vídeos feitos com o Stable Diffusion.

Existem críticas a respeito da liberação do seu código-fonte, pois isto facilitaria a criação de ferramentas para a propagação de deep fakes, que são imagens ou vídeos representando pessoas reais em situações, ou contextos falsos.

Por outro lado, o conhecimento amplo do funcionamento desse tipo de tecnologia permite que mais pessoas entendam o problema para combatê-lo.

É importante ressaltar que os usuários não detêm propriedade intelectual sobre as imagens geradas, porém, têm responsabilidades sobre o conteúdo produzido.

O funcionamento do Stable Diffusion

Para alguns usuários, o Stable Diffusion pode parecer um pouco intimidador, pois a versão base não possui interface gráfica, exige sintaxe um tanto específica, é em inglês e demanda alguns ajustes. 

Existem basicamente duas formas do Stable Diffusion funcionar. O que geralmente vemos na internet se chama Palavra para imagem. Basta descrever uma cena, que o software lê o que foi escrito e gera uma imagem. 

Devido a limitações relacionadas ao treinamento da inteligência artificial e para reduzir o consumo de memória, é recomendado que as imagens geradas por este modo tenham a resolução 512 x 512px. Outras resoluções podem ocasionar erros e imperfeições.

Stable Diffusion, entendendo a tecnologia que cria arte - img to img 1
Modificação de imagem feita pelo Stable Diffusion baseado em instruções por texto.

No modo chamado imagem para imagem, o usuário adiciona uma imagem para ser alterada. Aqui há muito o que pode ser feito, dentre as possibilidades temos: 

  • Modificar imagem a partir de um texto: você digita o que quer modificar e o programa faz. É possível alterar o fundo, remover ou acrescentar elementos, modificar cores e muito mais.
  • Alterar imagem a partir de um rascunho: você pode desenhar em uma máscara colocada sobre a imagem demonstrando o que deseja mudar. O funcionamento é parecido com o item anterior, mas de forma mais visual.
  • Aumentar a resolução de uma imagem: apenas adicione a imagem e descreva a resolução desejada.
  • O programa também é capaz de unir imagens, formando uma composição.
Stable Diffusion, entendendo a tecnologia que cria arte - composicao
Processo de composição através da união de imagens em versão modificada do Stable Diffusion.
Crédito: Gene Kogan

Existem detalhes importantes para considerar ao configurar o programa para obter resultados melhores. Além de aprender como funciona a sintaxe, devemos regular parâmetros, como, por exemplo:

  • Guidance Scale: este ajuste demanda um valor de 0 a 1. Quanto mais alto, maior o ruído, o que se traduz em uma variedade maior de resultados, porém pode acabar se desviando do comando do usuário.
  • Inference steps: aqui é delimitado quantas vezes a imagem será processada. O valor pode variar entre 1 e 500. Quanto mais alto, maior o potencial de produzir uma imagem bem feita, porém aumenta também o tempo de processamento. Na verdade, mais do que 60 passos quase não gera ganho em qualidade.
  • Seed: o Stable Diffusion pode criar até 890 milhões de variações de imagens baseado em um mesmo comando. Esta função possibilita escolher uma variação específica. Caso você digite o mesmo comando e o mesmo seed em outro computador, o resultado será o mesmo. Isto funciona como no jogo Minecraft.

Por onde começar a utilizar o Stable Diffusion

Por ser um software livre, o Stable Diffusion é bastante acessível. Existem sites que rodam a aplicação em servidores e disponibilizam versões gratuitas e pagas. Dessa forma é possível usar em qualquer aparelho com conexão à internet.

Porém, rodar na nuvem tem suas limitações. É impossível implementar modificações e algumas ferramentas ficam indisponíveis. Portanto, se você quiser usufruir tudo o que o Stable Diffusion oferece, a melhor forma é rodar localmente.

Instalar o Stable Diffusion em sua máquina permite explorar todas as funções de maneira ilimitada, alterar o código-fonte, utilizar os diversos mods da comunidade, ou até mesmo alimentar a inteligência artificial com outras imagens. Dessa forma é possível estender suas funções e adaptar o programa às suas necessidades.

A versão original pode parecer meio complicada, mas existem modificações com interfaces mais amigáveis que facilitam o uso. É importante ficar atento à reputação de quem publicou para não comprometer a segurança do seu computador.

Um novo mercado está se criando?

Supostamente, este tipo de programa poderia afunilar o mercado para artistas, mas é necessário lembrar que apesar da incrível capacidade dele, o trabalho humano é fundamental para obter resultados satisfatórios.Em minha breve experiência, precisei de algumas dicas da internet, um pouco de prática (ou sorte) para conseguir produzir algo que fizesse sentido, ou que ao menos não fosse bizarro. Para pessoas criativas, pode ser um combustível para a imaginação.

Portanto, pode ser necessário investir algum tempo para gerar algum valor com este tipo de ferramenta. Além disso, uma curadoria para selecionar a melhor imagem é crucial, pois existem milhões de resultados baseados em uma sentença.

O Stable Diffusion pode ser uma forma de incluir pessoas criativas desprovidas de habilidades de desenho no universo da arte. Esta é uma ferramenta que pode auxiliar artistas e designers a otimizar seu trabalho e talvez represente um novo horizonte, devido ao grande potencial de abrir o mercado.

Podemos considerar o lançamento do Stable Diffusion um marco histórico, pois é raro uma tecnologia tão recente e disruptiva ter o código aberto.

Você já usou o Stable Diffusion? O que você pensa sobre esta tecnologia? Conte para a gente nos comentários!

Assine nossa newsletter para não perder as últimas novidades do mundo dos pinguins!

Diolinux Ofertas - Aproveite os melhores descontos em diversos produtos!