Audiovisual E Inteligência Artificial:: Processos de Geração Do Sentido em Textos Autônomos
Audiovisual E Inteligência Artificial:: Processos de Geração Do Sentido em Textos Autônomos
Audiovisual E Inteligência Artificial:: Processos de Geração Do Sentido em Textos Autônomos
Bauru/SP
2019
Vinícius Laureto de Oliveira
Bauru/SP
2019
2
Oliveira, Vinícius Laureto
Audiovisual e inteligência artificial: processos de geração do sentido em
textos autônomos / Vinícius Laureto de Oliveira, 2019
125 f. : il.
3
4
"A year spent in Artificial Intelligence is enough to make one believe in God."
5
AGRADECIMENTOS
Deixo aqui meu agradecimento a todos aqueles que me auxiliaram durante este
período do mestrado, principalmente os que não aguentam mais me ouvir falar de
inteligência artificial:
A Deus e Nossa Senhora, que me ouvem em pensamento e, provavelmente, já
estão entediados de tanto me ouvir pensar nisso.
Aos meus pais, Ní e Roberto, e a minha segunda mãe, Waldecy, que não
faziam ideia do que eu estava falando, mas sempre apoiaram e incentivaram.
Aos amigos do Bar do Aeroclube (o melhor bauru de Bauru), Henrique e
Isabella que me aguentavam falar de inteligência artificial após uma taça de vinho.
Aos colegas do GEA - Grupo de Estudos Audiovisuais, por horas incríveis de
aprendizado e paixão pelo audiovisual (e alguns por inteligência artificial).
Aos professores e servidores técnicos da Pós-Graduação da FAAC com quem
tive contato. Eu perdi alguns prazos, mas foi porque estava pensando em inteligência
artificial.
À minha incrível namorada, Letícia, que me ouviu ao menos 30 minutos todas
as noites do último ano falando sobre isso. E depois falou outros 30 minutos sobre o
mesmo assunto.
À minha orientadora, professora Ana Silvia Lopes Davi Médola, que topou este
projeto comigo quando nenhum de nós falávamos sobre inteligência artificial ainda.
Agradeço pela cumplicidade na produção deste trabalho e por todos os ensinamentos.
6
RESUMO
7
ABSTRACT
This work carried out the processes of autonomous text creation and the
generation of meaning. Digital tools with data analysis capabilities and artificial
intelligence usher in new stages of the audiovisual production process. From the script
analysis of two short films generated in a recurrent neural network, we evaluated the
process of text composition and the formation of meaning. For this, we use the
theoretical-methodological contribution of the French discursive semiotics. Among the
results obtained, we identified human interference with autonomously created content
as the main meaning-generating function. The text generation model with neural
networks approached in this research uses only quantitative data for content
generation, proving to be inefficient in semantic construction. From this, we propose
an interface layer between the neural network text generation engine and the final
composition of the text, so that it must fulfill the requirements of the generative sense
path, parameterizing the call of a recursive semantic generation function.
8
LISTA DE FIGURAS
9
SUMÁRIO
Apresentação 10
Considerações Iniciais 12
Apêndices 118
4.1 – Roteiro do curta-metragem Sunspring em português 119
10
APRESENTAÇÃO
Esta pesquisa propõe uma investigação acerca uso de softwares que auxiliem
em produções audiovisuais com a presença de recursos de inteligência artificial.
Adotou-se como corpus da pesquisa dois roteiros de curtas-metragens, Sunspring e
Orange. Sunspring foi produzido a partir de um roteiro escrito por uma inteligência
artificial, o Benjamin. Orange foi criado a partir de um sistema inteligente para os
propósitos desta pesquisa. O objetivo central desta dissertação é o de analisar a
formação do sentido em textos gerados de forma autônoma, como os dos objetos.
Desta forma, estruturamos o trabalho da seguinte maneira:
Nas Considerações Iniciais iniciamos uma apresentação sobre a semiótica
discursiva francesa e o percurso gerativo do sentido. Alinhamos a metodologia com
pesquisas já existentes sobre a geração de texto autônoma e o estudo sobre a
formação do sentido a partir da semiótica. Além disso, estruturamos os parâmetros do
percurso gerativo de sentido como metodologia de análise do corpus.
Em Inteligência Artificial no Auxílio à Textos Audiovisuais realizamos uma
trajetória da comunicação e computação a partir de um viés dos sistemas inteligentes.
Destacamos neste processo a evolução da tecnologia no meio comunicacional e a
forma como os novos sistemas inauguram etapas no processo de produção
audiovisual. Apresentamos neste capítulo o primeiro objeto do corpus, Sunspring,
além de outros experimentos semelhantes.
No segundo capítulo, Sincretismo Audiovisual na Formação do Sentido,
realizamos a análise semiótica do curta-metragem Sunspring. Durante a análise,
identificamos como as linguagens que compõe o audiovisual são responsáveis por
gerar o sentido em um curta-metragem que foi escrito por um computador. Após a
análise, apresentamos algumas discussões sobre a geração de sentido e a
criatividade em sistemas inteligentes. Em seguida, abordamos alguns tópicos sobre a
antropomorfização de aplicações com inteligência artificial.
11
Em a Construção do Sentido em Textos Autônomos realizamos, por meio do
WRT, o processo de construção do roteiro de Orange a partir do mesmo corpus de
textos que Benjamin utilizou para a geração de Sunspring. A partir disto, pudemos
identificar questões sobre a construção de texto de forma autônoma e como a geração
do sentido se dá nestes meios. Por meio destas análises, sugerimos a avaliação de
uma instância geradora de sentido para a construção de textos por meio de uma rede
neural de recorrências.
Nas Considerações Finais apresentamos uma síntese sobre a geração
semântica em textos autônomos e como uma nova instancia do sentido pode auxiliar
neste processo. Finalizamos o texto com indicações de continuidades para esta
pesquisa.
***
Sunspring
Link de acesso:
https://www.youtube.com/watch?v=LY7x2Ihqjmc
12
CONSIDERAÇÕES INICIAIS
13
CONSIDERAÇÕES INICIAIS
1 Dado retirado da projeção do Google Trends de 2004 até 2019 com o termo machine learning
(aprendizado de máquina). Disponível em:
https://trends.google.com.br/trends/explore?date=all&q=machine%20learning Acesso em 5 mai. 2019
2 “No primeiro debate presidencial, 10% dos tuítes foram de robôs ou fakes” Disponível em:
https://oglobo.globo.com/brasil/no-primeiro-debate-presidencial-10-dos-tuites-foram-de-robos-ou-
fakes-22970273 Acesso em 5 mai. 2019
3 “Matriz da Cambridge Analytica participou de mais de 200 eleições, diz delator” Disponível em:
https://oglobo.globo.com/mundo/matriz-da-cambridge-analytica-participou-de-mais-de-200-eleicoes-
diz-delator-22515244 Acesso em 5 mai. 2019
14
inteligência artificial para a comunicação, está no insight dos dados oferecidos ao
sistema e a automação a partir destes. Desta forma, sistemas são treinados para
realizar funções ligadas diretamente a cognição humana, como escrever mensagens
de ataque ou defesa à candidatos durante os debates eleitorais. Avanços tecnológicos
relacionados ao aumento do poder de processamento dos computadores, a
velocidade das conexões em rede e a possibilidade de análise de grandes
quantidades de dados, permitiram a expansão da IA para diversas frentes de pesquisa
e mercado, chegando também às áreas da comunicação.
4Softwares capazes de conversar com usuários por meio de chats simulando a conversação com um
humano através de aplicativos de redes sociais, como o Facebook e o WhatsApp
15
Em seu texto “Comunicação e inteligência artificial: novos desafios e
oportunidades para a pesquisa em comunicação”5 o professor David J. Gunkel
demonstra preocupações em relação aos caminhos dos sistemas inteligentes e a
forma como estes já começam a atuar nos ramos da comunicação pelos meios
digitais. O professor alerta para a necessidade de pesquisas que relacionem o campo
das ciências sociais aplicadas com os sistemas autônomos, e como a comunicação
responde a questionamentos que se parecem com retirados de um filme de ficção
científica.
5 Galáxia (São Paulo, online), ISSN 1982-2553, n. 34, jan-abr., 2017, p. 05-19. – Disponível em
http://www.scielo.br/pdf/gal/n34/1519-311X-gal-34-0005.pdf Acesso em 5 mai. 2019
6Traduzido livre de: Study of meaning processes and communication practices within the fields of natural
18
inicial. O quadrado semiótico é um modelo sintático de organização dos sentidos no
nível mais profundo e abstrato do percurso gerativo do sentido.
19
alterando-se mediante a conjugação de um enunciado de fazer sobre um enunciado
de estado. Já a relação entre os enunciados define um programa narrativo, uma
unidade de operação narrativa de um texto.
20
narrativo de competência com um programa de performance é denominada percurso
do sujeito.
21
deste percurso são o de interpretação e o de retribuição. No de interpretação, o
destinador-julgador avalia o sujeito pelas suas ações e valores, verificando sua
intepretação veridictória dos estados resultantes do sujeito, avaliando se os
compromissos assumidos na manipulação se tornaram concretos. Estes estados
podem ser classificados pelo julgador em verdadeiro (que parecem e são), falso (que
não parecem e não são), mentiroso (que parecem, mas não são) ou secretos (que
não parecem, mas são). O segundo programa narrativo do percurso é o da retribuição,
também conhecido sanção pragmática. Após o julgamento das ações e valores, o
sujeito classificado como cumpridor dos compromissos assumidos é julgado
positivamente e recebe uma sanção de recompensa. Já se o sujeito for julgado de
forma negativa poderá receber uma punição. Segundo BARROS (2005, p. 37) “a
retribuição (...) faz parte da estrutura contratual inicial e estabelece o equilíbrio
narrativo, pois é o momento de o destinador cumprir as obrigações assumidas com o
sujeito, na hora da manipulação”.
22
O terceiro nível do percurso gerativo do sentido é o discursivo. Neste patamar,
o texto se apresenta de forma menos abstrata, mais próxima de seu real enunciado.
Ao analisarmos o nível discursivo, estamos analisando também o mecanismo da
enunciação, ou seja, a colocação em discurso. As estruturas narrativas convertem-se
em estruturas discursivas quando assumidas pelo sujeito da enunciação que “faz uma
série de ‘escolhas’, de pessoa, de tempo, de espaço, de figuras, e ‘conta’ ou passa a
narrativa, transformando-a em discurso” (BARROS, 2005, p. 53). Sobre a enunciação,
FIORIN afirma:
24
por meio de ilustrações concretas, mas por figuras analógicas” (2007) tornando a
percepção do que é inacessível em uma percepção rápida do texto em sensível.
25
CAPÍTULO 1
INTELIGÊNCIA ARTIFICIAL NO AUXÍLIO À TEXTOS
AUDIOVISUAIS
26
CAPÍTULO 1
INTELIGÊNCIA ARTIFICIAL NO AUXÍLIO À TEXTOS
AUDIOVISUAIS
9Isaac Asimov (Nascimento entre 4 de outubro de 1919 e 2 de janeiro de 1920 - Petrovichi, Rússia
Soviética, morte 6 de abril de 1992 Nova Iorque). Escritor classificado no movimento literário Golden
Age of Science Fiction (Era de Ouro da Ficção Científica) que nos EUA teve duração entre os anos de
1938 e 1946.
27
robótica: (1) um robô não pode ferir um ser humano ou, por não ação, permitir que um
ser humano sofra algum mal; (2) um robô deve obedecer às ordens dadas por seres
humanos exceto nos casos em que tais ordens entrem em conflito com a primeira lei
e (3) um robô deve proteger sua própria existência desde que tal proteção não entre
em conflito com a primeira ou a segunda lei. Para Asimov, os robôs evoluíam à medida
que seus “cérebros positrônicos” se tornavam mais completos, permitindo às
máquinas a interpretação e interação com o mundo em volta. Asimov está no chamado
grupo dos “três grandes10” da ficção científica, junto com Robert A. Heinlein (Tropas
Estelares e Um Estranho Numa Terra Estranha) e Arthur C. Clarke (2001: Uma
Odisseia no Espaço e A Cidade e as Estrelas).
Figura 3 - Eu, Robo (2004, EUA) e O Dia em que a Terra Parou (1951, EUA)
O filme O Dia em que a Terra Parou (1951, EUA) foi lançado apenas um ano
após a publicação da coletânea Eu, Robô. Na trama do longa-metragem, o alienígena
Klaatu aterrissa na terra com seu robô, Gort, uma grande figura antropomorfizada de
metal, em busca de uma conciliação dos líderes políticos do planeta e parar a corrida
armamentista. Durante o filme, o invencível robô Gort é acionado para conter os
humanos que veem em Klaatu uma ameaça para a humanidade. Em seu desfecho,
Klaatu dá um ultimato a Terra: se os humanos não pararem com extensivo
armamento, Gort e outros robôs destruirão o planeta. O Dia em que a Terra Parou foi
o primeiro longa-metragem de ficção científica feito por um estúdio de renome, a 20th
Century Fox, e com um grande orçamento, US$ 1.2 milhões, tornando-se um dos
elementos do cânone. Outros títulos do mesmo gênero, como 2001 - Uma Odisseia
no Espaço (1968, EUA), O Exterminador do Futuro (1984, EUA) e Matrix (1999, EUA),
também apresentam realidades arruinadas pelas máquinas inteligentes.
12 Tradução livre: Estamos mais próximos de uma máquina de lavar inteligente do que do Exterminador
do Futuro. Se analisarmos a IA hoje ainda estamos em um estágio incipiente. Fico muito empolgada e
entusiasmada com o potencial da IA, mas ela ainda é muito limitada em seu poder. Retirado de Retirado
de ALPHAGO. Greg Kohs. Russia: Moxie Pictures, 2018
13
Retirado de Artificial Intelligence: Friendly or Frightening? 2014. disponível em:
https://www.livescience.com/49009-future-of-artificial-intelligence.html acesso em: 20 jan. 2019.
14 Disponível em https://brasil.elpais.com/brasil/2017/07/17/tecnologia/1500289809_008679.html
Acesso em 5 mai. 2019.
15 Disponível em https://canaltech.com.br/entretenimento/a-era-do-robo-sapiens-o-dia-em-que-a-
inteligencia-artifical-dominar-a-terra-72905/ Acesso em 5 mai. 2019.
30
pesquisa tinha como princípio que “cada aspecto do aprendizado, ou outra forma de
inteligência, pode ser descrito de forma tão precisa que uma máquina pode ser criada
para simular isso” (MCCARTHY, 1955). Embora o termo possa ter sido cunhado em
1955, período que ainda corresponde a segunda geração da informática, a ideia de
criar uma máquina ou sistema que possa imitar o homem precede até mesmo a
invenção dos primeiros componentes eletrônicos.
32
Ainda na década de 1950, foi sistematizado o Perceptron17, um modelo
matemático de um neurônio biológico, utilizando um algoritmo adição (função lógica
de disjunção) ponderada para o reconhecimento mais profundo de padrões e
aprendizado de máquina. Podemos definir um algoritmo como uma sequência de
instruções finitas para que um programa execute uma tarefa. No caso do Perceptron,
as etapas do algoritmo tinham como objetivo fazer a separação de elementos
planificados em um gráfico. Por meio das contas realizadas com os dados de entrada,
o Perceptron deveria traçar uma reta separando em dois conjuntos elementos que
fossem semelhantes. Na mesma década, o matemático Alan Turing publica o artigo
Computing Machinery and Intelligence no qual apresenta a pergunta “podem as
máquinas pensar? ” (TURING, 1950, p. 433).
17O Perceptron tem como objetivo explicitar uma saída a partir de diversas entradas. Para isso, ele
aplica pesos para cada entrada baseados em números reais. Sua saída será 0 ou 1, sendo determinada
pela soma ponderada dos elementos de entrada multiplicados pelo peso atribuído. Dessa forma, se o
resultado da soma atingir até um determinado limite, o Perceptron poderá responder com 0 ou 1.
33
padrões. Por exemplo, se fatores como idade, renda anual e a presença de um fiador
podem ser pontos positivos para uma instituição financeira na obtenção de um
empréstimo, esta poderia montar um banco de dados com todos os financiamentos
recentes realizados, auxiliando um sistema a tomar uma decisão. A partir dos dados
de entrada e das decisões já tomadas por humanos, o sistema pode analisar a chance
de empréstimo de novos clientes, permitindo ou não, baseado na pontuação que este
realiza.
No entanto, trabalhar com dados exatos, como idade e renda, é fácil para um
computador. Para aprimorar a interface humano-máquina, era preciso entender o que
os humanos falavam. Em 1957, Noam Chomsky lança seu livro Estruturas Sintáticas,
que segundo NORVING E RUSSEL (2013), apresentava uma teoria linguística formal
o suficiente para ser programável. Entre as principais colaborações do linguista para
a área está a chamada Hierarquia de Chomsky, definindo propriedades essenciais
sobre a área de linguagens formais e naturais. As hierarquias são divididas em quatro
níveis em ordem decrescente, do mais restrito para o mais completo. Os níveis dois,
linguagens livres de contexto, e três, linguagens sensíveis ao contexto, da hierarquia
oferecem subsidio à informática na relação dos compiladores de linguagem de
programação e na criação de textos de forma autônoma. A relação de linguagem
natural e geração autônoma é feita nos níveis um, linguagens sensíveis ao contexto,
e zero, linguagens recursivamente enumeráveis. Assim, linguística e inteligência
artificial formam um campo híbrido chamado Linguística Computacional ou
Processamento de Linguagem Natural.
35
tornou acessível os sistemas não só para os cientistas, mas também para os usuários
caseiros, de modo que a programação desenvolvida no ocidente era muito mais
“amigável” e viável comercialmente do que a que estava sendo feita no Japão
(WAZLAWICK, 2016).
Figura 5 - Apple Macintosh (1984). O computador, já com tela, com o maior número de vendas na
década de 1980.
38
no mundo era 4.4 zettabytes18 em 2013. A estimativa é de que em 2020 esse número
suba para 44 zettabytes. Entre essa enorme quantidade de dados não estruturados
gerados pelos usuários estão comentários e opiniões que podem circular e pautar
diversos aspectos da mídia e mercado, mas que da perspectiva de uma análise, se
perdem diante da infinidade de informações não estruturadas.
19 Conforme a revista Forbes de 30 de abril de 2018, os sistemas inteligentes podem gerar de 3,5$ a
5,8$ trilhões de dólares espalhados em 19 segmentos de mercado, como transporte e logística, mídia
e entretenimento, turismo e agricultura.
20 API corresponde em inglês “Application Programming Interface“. No português “Interface de
Programação de Aplicações”. As APIs são como pontes entre sistemas, possibilitando o uso de dados
de um sistema em outro. Nos casos citados no texto, as APIs disponibilizadas permitem que os
programadores criem sistemas inteligentes utilizando o potencial dos supercomputadores das
empresas (Google, IBM, Microsoft e Amazon) remotamente, através da internet.
40
Fonte: Reprodução / theconversation.com
Figura 6 - Plateia assiste a derrota de Gary Karparov em uma partida de xadrez para IBM Deep Blue.
O curta metragem Sunspring (2016, Reino Unido) teve as falas de seu roteiro
escritas por Benjamin. Para isso, o sistema teve de ser treinado a partir dos roteiros
de filmes que representam o cânone da ficção científica. Logo, as falas de filmes como
Blade Runner (1982, EUA) e Independence Day (1996, EUA) estavam presentes no
banco de dados de Benjamin. A criação das falas do filme utiliza redes neurais
recorrentes de memória de longo prazo (LSTM), que segundo SHARP22, dá a
capacidade para o computador gerar parágrafos inteiros baseados em um banco de
dados, concebendo conteúdo original e não apenas frases copiadas do corpus. O
21 Tradução nossa: Benjamin é uma rede neural de memória de longo prazo que já desenvolveu
diversos roteiros, como Sunspring (Benjamin, 2016). Diferente de outros sistemas, Benjamin trabalha
sem agentes tentando cumprir metas ou atividades definidas que garantem a consistência do resultado
quando a base de dados é manipulada. Utilizando um grande corpus de roteiros já existentes como
banco de dados, ele pode ser treinado para aprender e desenvolver sua própria narrativa no mesmo
estilo das da base.
22 GOODWIN, Ross; SHARP, Oscar. Machines Making Movies. TEDxBoston. Disponível em
43
criação de Benjamin, verificamos que há apenas uma meta semântica construtora das
falas, baseada nas recorrências e na reprodução de padrões encontrados, mas esta
não se traduz em uma semântica natural do texto. Sendo o sentido o principal objetivo
da semiótica (BERTRAND, 2003), a estruturação proposta por A. J. Greimas do
percurso gerativo do sentido poderia auxiliar na elaboração de narrativas de forma
autônoma. É preciso deixar clara a ressalva de que a aplicação das estruturas do
percurso gerativo do sentido em algoritmos de criação textual baseadas em redes
neurais de memória de longo prazo, como o Benjamin, não limitaria a “criatividade” da
máquina aplicando regras sobre a criação dos conteúdos, como as tabelas de
comportamentos utilizadas pelo MEXICA-impro, mas proporcionaria escopo para a
análise do sentido do corpus e eventual substituição das falas criadas. Isto acontece
devido ao caráter geral e abstrato do percurso gerativo do sentido. Dessa forma, um
enunciado elementar de um sujeito em busca de um objeto-valor pode ser revestido
de inúmeras maneiras, garantindo assim a manutenção da estrutura para a formação
semântica.
23 Efeito Kuleshov foi contatado a partir da atribuição de sentido dada por um espectador
inconscientemente após ver imagens intercaladas entre da expressão facial neutra de um ator e prato
de sopa, uma criança morta e uma mulher atraente.
44
Podemos também destacar outros usos das ferramentas de Geração de
Linguagem Natural relacionadas à comunicação, como a criação de notícias e
publicações automáticas em redes sociais. Atualmente, estão disponíveis alguns
serviços de geração automática de texto que funcionam a partir de um corpus de
materiais semelhantes. Entre as aplicações com esta capacidade estão o Newsomatic
e o Article Generator, para a geração de notícias automáticas. Ambos os serviços
funcionam a partir do escaneamento de notícias com palavras-chave escolhidas pelo
usuário. A partir dos resultados obtidos na busca, o algoritmo consegue realizar a
conjunção dos textos em um único. Outro resultado que o sistema promete entregar
é o de um texto único, utilizando sinônimos para os trechos de textos capturados das
notícias. Atualmente, ambos os serviços estão disponíveis em português brasileiro,
mas dependem de uma tradução, já que a elaboração do material é feita em inglês.
Para demonstrar a ferramenta, apresentamos um trecho traduzido 24 de um artigo
gerado automaticamente pelo Article Generator com as palavras-chave “Trump, North
Korea, Kim Jong Un, nuclear”.
24Trecho original: MOSCOW — Russian admiral Vladimir Putin emerged from his first summit with Kim
Jong Un on Thursday asserting that north Korea needs overseas protection ensures, no longer simply
U.S. pledges, to agree with giving up its nuclear arsenal. Putin’s call for more bunch involvement
contrasts sharply with admiral Trump’s method of one-on-one talk with the arctic Korean chief.
45
causada pela associação do termo “presidente” com uma titulação militar, causando
uma eventual troca por “almirante”. Levando em consideração de que o trecho é um
arranjo discursivo, uma tessitura de outros exemplos, ele se organiza por com base
nas reiterações. Assim, ao realizar a busca pelas palavras-chave oferecidas, o
algoritmo deve verificar quais as reiterações de temas e figuras estão presentes no
corpus definido. A manutenção das isotopias figurativas e temáticas no novo trecho é
responsável pela coerência textual. Embora seja possível estranhar a leitura do
trecho, identificando problemas em relação a coerência, o texto não é inteiramente
ruim e consegue transmitir os valores da notícia. Como não há a semantização dos
termos pelo computador, a substituição por verbetes sinônimos acaba gerando
confusão, como no caso presidente-almirante, no entanto, ainda é passada a ideia de
poder. Mesmo apresentando erros em seu resultado final, podemos destacar esta e
outras aplicações bem-sucedidas na área de geração linguagem natural como os
chatbots, que trabalham com o atendimento aos usuários em perfis corporativos nas
redes sociais, e os serviços de assistentes pessoais como o Google Assistant e a Siri.
Visão computacional
Outra área que merece destaque nas experiências audiovisuais com
inteligência artificial é a de reconhecimento de imagens e sons. A partir da entrada de
dados visuais e sonoros é possível processar saídas personalizadas. As transmissões
esportivas ao vivo estão entre as dinâmicas televisivas que mais trabalham com dados
simultâneos, como as das câmeras, replays, videografismos, o som dos microfones
do campo e das arquibancadas além dos dados estatísticos, como pontuação e
cronometria. A quantidade de dados armazenados, processados e transmitidos em
campeonatos ou torneios de grande escala confere um elevado grau de complexidade
para a atividade de diversos profissionais envolvidos. Em 2017, a IBM aplicou a
tecnologia de seu supercomputador, o Watson, no centenário torneio de tênis de
Wimbledon. O desafio proposto era o de criar vídeos automáticos com duração de até
dois minutos com os melhores momentos da partida logo ao fim do jogo. Wimbledon
46
é o mais antigo torneio de tênis do mundo e realiza mais de 250 partidas em duas
semanas. De acordo com Rogerio Feris, gerente de computer vision and multimedia
research, este foi um desafio “além da seleção e curadoria de trechos dos jogos para
um editor de vídeo”25. Para a criação dos vídeos automáticos foi preciso associar e
processar as imagens e áudios captados com os dados de telemetria disponíveis.
The combination of this data and these modalities helps the system get
the full picture of a match’s most exciting moments, and demonstrates
the value of audio and video techniques in helping rank or discover
25IBM. Scaling Wimbledon’s video production of highlight reels through AI technology. 2017, disponível
em: https://www.ibm.com/blogs/research/2017/06/scaling-wimbledons-video-production-highlight-
reels-ai-technology/ acesso em: 20 jan. 2019.
47
moments that might ordinarily be passed over using pure meta-data
analysis. (FERIS, 2017)26
26Tradução nossa: A combinação dos dados auxilia o sistema a ter uma visão geral dos momentos
mais emocionantes da partida e demonstra o valor da combinação de dados com o áudio e vídeo,
ranqueando ou removendo momentos que podem ser ignorados, tudo a partir das análises dos
metadados. Disponível em: https://www.ibm.com/blogs/research/2017/06/scaling-wimbledons-video-
production-highlight-reels-ai-technology/ acesso em: 20 jan. 2019.
48
As análises feitas após isso podem ser divididas em três áreas: análise visual, análise
sonora e análise de composição de cena. Na análise visual foram identificadas as
pessoas, cenários e objetos, que formam categorias entre 24 emoções e rótulos. A
análise sonora teve como objeto o tom de voz do atores, trilhas sonoras e ruídos,
buscando entender o sentimento das cenas. A análise de composição da cena buscou
compreender o local representado, a forma do ambiente e iluminação, encontrando
um padrão entre os trailers de filmes de suspense analisados. Após a análise de todos
os trailers, o Watson estava pronto para assistir ao filme Morgan. Entre os 132 minutos
do longa-metragem, foram selecionados seis pelo computador, incluindo entre eles 10
pontos chaves.
Figura 9 - Captura de tela do trailer de Morgan. O gráfico apresenta pontos no filme em que existem
mudanças nas emoções.
Disponibilidade de ferramentas
Ferramentas de análises visuais, como as utilizadas pela IBM no longa-
metragem Morgan, estão disponíveis para outros usuários através da internet. Entre
as diversas empresas que oferecem esse tipo de ferramenta, podemos destacar a
Google, com os serviços Cloud Vision e Cloud Video Inteligence. O serviço oferece
ferramentas de análise e indexação de material em fotos e vídeos. Entre os objetivos
dos serviços está o de ser simples. Segundo a própria descrição da Cloud Vision, 28
desenvolvedores com pouco conhecimento em machine learning podem treinar
modelos personalizados de alta qualidade. Tanto a Cloud Vision, que trabalha com
imagens estáticas, quanto a Cloud Video Intelligence, utilizada para imagens em
movimento, podem reconhecer elementos dentro de uma mídia visual. Dessa forma,
conjuntos amplos, como animais, brinquedos e construções, podem ser categorizados
pelo serviço. Além disso, a partir do treinamento da máquina, é possível criar
categorias mais específicas de classificação dos elementos encontrados nas imagens,
o que pode ser de grande utilidade para a análise de conteúdos audiovisuais.
Figura 10 - Montagem de telas após a análise das imagens dos filmes pela Google Vision
29Emoções disponíveis para a classificação: joy, sorrow, anger e surprise e as gradações: very unlikely,
unlikely, likely e very likely
52
muito improvável, pouco provável, provável, muito provável. As emoções são dadas a
partir da comparação de uma face da imagem com a dos bancos de dados da
ferramenta. (2) A segunda parte da análise reconhece objetos presentes na cena. Está
é uma etapa mais geral do que será a terceira, que vai verificar rótulos. Dessa forma,
foram reconhecidos na imagem do filme Matrix os objetos pessoa e homem. Está
análise se aprofunda na (3) terceira etapa, em que são encontrados elementos que
compõe os objetos, como braço, mão e músculo, e outros rótulos que classificam a
imagem, como fotografia, templo e kung fu. (4) A quarta etapa de análise utiliza a
internet para classificar o conteúdo, encontrando termos de busca relacionados e
imagens iguais ou semelhantes na rede. Esta etapa busca e apresenta reiterações do
conteúdo. Ainda é possível depreender alguns rótulos, semelhante ao caso da terceira
etapa, como ficção científica e artes marciais. (5) A quinta etapa está relacionada a
aspectos técnicos da imagem, como a presença das cores predominantes, sugestões
para o corte e a redução. (6) A sexta e última etapa realiza a análise em busca de
conteúdos que possam ser classificados como somente para adultos ou conter
imagens violentas. A classificação de conteúdos adultos muitas vezes é utilizada por
redes sociais nas fotos de seus usuários, para a remoção de imagens postadas que
possam violar as políticas de compartilhamento da comunidade.
53
Fonte: Reprodução/repubblica.it
Figura 11 - Imagem da Venus de Willendorf, estátua com mais de 30 mil anos, censurada pelo
algoritmo de reconhecimento de nudez do Facebook.
54
foi capaz de prever com confiabilidade de até 96% que um quadro pertencia a novela
O Sétimo Guardião.
Figura 12 - Quadros da novela Espelho da Vida analisados por um modelo próprio de machine
learning
56
estabelecer um sentido. A partir disso, avaliaremos nos próximos capítulos a
construção semântica em textos gerados de forma autônoma.
57
CAPÍTULO 2
SINCRETISMO AUDIOVISUAL NA FORMAÇÃO
DO SENTIDO
58
CAPÍTULO 2
SINCRETISMO AUDIOVISUAL NA FORMAÇÃO
DO SENTIDO
59
mesmas posições. Esta forma de seleção e aplicação dos parágrafos é semelhante
ao procedimento das “cadeias de Markov”, um processo estocástico caracterizado
pelo estado futuro depender apenas do atual, sendo que os estados passados não
influenciam futuro das escolhas.
Esta primeira forma de construção foi utilizada pelo autor para a escrita de
poemas forma autônoma, seguindo apenas algumas regras de formatação e
disposição dos versos, deixando a composição do texto para a cadeia de Markov. A
ampliação do poder de processamento do sistema de geração de texto de Goodwin
foi feita com aplicação de uma rede neural de recorrências do tipo LSTM (long short
term memory recurrent neural network). Esta rede permite o entendimento de
recorrência nos textos de um corpus e o armazenamento de informações sobre por
períodos maiores de processamento. Assim, ao contrário das cadeias de Markov,
todos os elementos anteriores têm poder de influência sobre a elaboração de um novo,
mas com pesos diferentes. A partir destas configurações foi possível utilizar Benjamin
para a criação do roteiro de Sunspring.
30Trecho original: Just above your smartphone keyboard lives an artificial intelligence. It was trained
on lots of texts and email, and tries to guess what you'll type next.
60
o uso pelo usuário, as sugestões passam a ser mais específicas, como a sugestão de
nomes ou expressões muito utilizadas.
Figura 14 – Texto gerado automaticamente pelo aplicativo Gboard apenas com palavras sugeridas
Figura 15 – Oscar Sharp e Ross Goodwin na palestra Machines Making Movies – TEDxBoston (2017)
63
Benjamin ainda possui limitações em diversos aspectos sobre a elaboração e
organização de uma narrativa. Segundo os autores, não existem falas criadas por
humanos presentes no roteiro final do curta-metragem. A principal função de Benjamin
é gerar o texto. SHARP e GOODWIN (2016) afirmam que, atualmente, o sistema
possui a capacidade de formatar visualmente o roteiro em uma estrutura utilizada
comercialmente, no entanto, esta função não estava disponível durante o
desenvolvimento de Sunspring, deixando a tarefa de formatação sob responsabilidade
de um humano. Os autores aproveitaram a oportunidade do seminário para apresentar
outras funções utilizando o poder de processamento de seu sistema, como o gerador
de títulos e o de sinopses. Ambos os recursos funcionam de forma semelhante,
utilizando o corpus de roteiros para as novas criações, alterando apenas a maneira
de formação dos resultados obtidos antes de serem apresentados.
Para gerar o texto, Benjamin é semeado, o que significa que este recebe uma
seed (semente), para poder criar a partir de um estímulo. No caso de Sunspring, o
estimulo dado para ao sistema foi a primeira frase do curta: “em um futuro com
desemprego em massa, jovens são forçados a vender sangue33 ”. Este estímulo vai
refletir sobre todo o texto gerado. Uma repetição deste estimo faz com que o sistema
processe os dados de maneira igual, gerando o mesmo resultado que o obtido
anteriormente. SHARP e GOODWIN (2017) afirmam que durante o processo de
geração do texto, Benjamin criou diversos trechos que não poderiam ser utilizados
devido à problemas semânticos. Desta forma, os autores foram obrigados a gerar
mais trechos a partir de uma seed diferente, criando novas partes que pudessem ser
alocadas a composição do roteiro. Outra forma de criação personalizada de texto que
auxiliou os autores foi a aplicação de parâmetros de criação, como o número de
palavras ou caracteres a serem gerados. Dessa forma, o sistema poderia ser
personalizado para a criação de uma fala ou um conjunto de falas faltantes em
específico.
33 Trecho original: In a future with mass unemployment, young people are forced to sell blood.
64
Benjamin é uma rede neural de reconhecimento de recorrências e, por isso,
tenta reproduzir padrões encontrados nos roteiros do corpus. Assim, além da criação
das falas, o sistema também gera a descrição de cenas e ações dos personagens.
Como citado anteriormente, esta separação entre diálogos e descrições foi realizada
por um humano, mas seu conteúdo foi elaborado pelo computador. Em suas falas, os
autores não apresentam comentários ou indícios de que estas descrições possam ter
sido geradas em outro momento além do da criação dos diálogos. Assim, podemos
supor que qualquer modificação semântica dada ao roteiro não foi realizada pela
adição de novas descrições, mas pela supressão e substituição de alguns diálogos.
66
sua base de dados. Destacamos como exemplo de descrição objetiva uma cena do
personagem H:
Ele está de pé nas estrelas e sentado no chão. Ele se senta no balcão e puxa
a câmera sobre suas costas. Ele a encara. Ele está no telefone. Ele corta uma pistola
da parede do cômodo e a coloca em sua boca. Ele vê um buraco negro no chão que
leva para o homem no telhado.34
34
Trecho original: He is standing in the stars and sitting on the floor. He takes a seat on the counter and
pulls the camera over to his back. He stares at it. He is on the phone. He cuts the shotgun from the edge
of the room and puts it in his mouth. He sees a black hole in the floor leading to the man on the roof.
67
tablet de seu rosto e realizar um escaneamento é apresentada sem motivações que
modalizaram o sujeito. Outro exemplo de ação desconexa é dado antes da fala de H,
em que o personagem tira da própria boca uma espécie de olho de vidro. Assim como
na situação anterior, a ação não possui preparação anterior ou influência futura, sendo
completamente ignorada durante o restante da narrativa. Mesmo que estas
características sejam colocadas em relação as ações, é preciso evidenciar que está
contradição tem papel na construção do contrato enunciativo dos autores com o
expectador. As ações desconexas representam este caráter de experimentação de
um roteiro escrito por um computador e, o que pode ser visto neste curta-metragem,
foge dos padrões de uma história comum escrita por um humano.
Momento Ação
H (primeiro personagem) sentado à mesa, remove um livro da
prateleira.
1º Ele expressa que poderia vender sangue para sobreviver sem
emprego.
H e H2 (segunda personagem) começam a conversar.
C (terceiro personagem) entra na sala e demonstra intimidade com
H2.
2º
H e H2 começam uma discussão.
Forma-se o conflito H versus H2 e C.
Em um novo ambiente, H está de pé em um fundo estrelado e uma
cópias sua está sentado no chão em baixo da mesa.
3º
Sua versão de pé segura a câmera com uma mão e atende o celular
com a outra. H remove uma arma da parede e aponta-a contra a
68
própria boca. No chão está um buraco, como um portal, pelo qual H
vê-se uma pessoa caída.
Em um novo cenário, C está caído no chão desacordado e H, ao seu
lado, pega uma bolsa com sangue de sua mochila.
4º
A porta no fundo da cena é fechada. H abaixa-se ao lado do corpo de
C e chora.
Olhando diretamente para a câmera, H2 fala emocionada.
Ela parece fazer referência ao ocorrido com C e a fuga de H.
5º
Entre as frases estão ditas no telefone com H.
Fim do curta.
35Trecho original: I saw him again. The way you were sent to me... that was a big honest idea. I am not
a bright light
69
a situação atual de um relacionamento entre os personagens. Ao utilizarmos os
recursos da sintaxe narrativa, podemos verificar, o que será reiterado nos próximos
momentos em relação ao objeto-valor de H: ter um bom relacionamento com H2. O
personagem C entra na sala e este é o aparente empecilho para a relação de
conjunção entre H e seu objeto-valor. Neste primeiro momento da narrativa, H é um
sujeito em disjunção de seu objeto-valor. Não é possível identificar pelas poucas falas
presentes neste momento se o objeto-valor de H2 seria estar afastada de H.
H2: Eu não tenho certeza. Eu não sei do que você está falando.
36 Trecho original: I was coming to that thing because you were so pretty
70
H: O princípio é construído completamento ao mesmo tempo. 37
SHARP (2017) afirma que as falas geradas por Benjamin tendem a ser
declarativas e acusativas, como é possível identificar nos trechos acima. A afirmação
de SHARP justifica a construção de frases seguindo a forma canônica dos termos que
constituem uma oração (sujeito, verbo e complemento), que no inglês mantem a
mesma ordem da língua portuguesa. Dessa forma, Benjamin aprendeu a seguir este
esquema e a construir frases que se encaixem nestes gabaritos. SHARP (2017) ainda
completa seu pensamento sobre as frases elaboradas por Benjamin abordando a
geração do sentido. Segundo o cineasta, era preciso identificar nas frases, a partir de
uma leitura em voz alta, se elas possuiam o drama para poderem ser interpretadas.
Esta etapa de leitura e identificação de uma possível dramaticidade habilita o trecho
para a intepretação. Este procedimento pode ser identificado como componente entre
os primeiros mecanismos de geração de sentido dos textos criados de forma
autônoma por Benjamin. Durante o seminário do Machine Making Movies na
convenção GitHub Universe 2016, a atriz Safiya Fredericks interpreta para o público
trechos gerados por Benjamin durante a apresentação38. A atriz afirma que em trechos
gerados automaticamente não é possível compreender como todos os personagens
estão se posicionando e, por isso, é preciso utilizar sua experiência de atuação para
dar sentido ao texto.
72
Não existem no roteiro de Sunspring indicações sobre como os personagens
devem agir, no entanto, as falas geradas para o momento de conflito são menores, o
que permitiu aos atores a interpretação de forma mais rápida, incitando as
características de afronta e ironia. O conflito tem um hiato com a intervenção de C
sobre a discussão de H e H2. Ele se aproxima de H e a diferença de altura dos
personagens fica evidente. C é mais alto e esta característica representa diversos
aspectos inseridos na cultura ocidental. Ser mais alto é uma figura para ser mais forte,
melhor e dominador. Este é o dragão das fábulas de H, o que impede de transformar
sua relação de disjunção com seu objeto-valor. O plano conjunto dos dois
personagens demonstra a altura de C mantendo uma grande área vazia acima da
cabeça de H, forçando-o a olhar para baixo. A trilha sonora é interrompida e o foco
está inteiramente na próxima ação dos personagens.
SHARP (2017) afirma que os atores “não sabiam sobre o que era a história,
assim que eles leram uns para os outros, surgiu um triangulo amoroso de lugar
nenhum, ele não estava lá” (SHARP, 2017). A afirmação de Sharp demonstra como
as diversas linguagens que compões o audiovisual podem ressaltar uma história já
conhecida no imaginário popular, dois homens brigando por uma mulher, mesmo de
um roteiro com falas que não apresentam ou corroboram para esta história. Segundo
SHARP e GOODWIN (2016) o texto gerado por Benjamin tem como principal objetivo
o de criar experiências emocionais. A partir disto, é possível criar um roteiro. Esta
criação de experiências é aprofundada por GOODWIN:
42Trecho original: I just wanted to tell you that I was much better than he did. I had to stop him and I
couldn't even tell
75
lado da sala e H percebe, foi intencionalmente criada por humanos. Esta co-criação
citada reforça o caráter gerativo de sentido humano sobre a obra criada pela máquina,
selecionando elementos de diversas linguagens para uma adequação semântica.
H desliga o celular enquanto olha para a câmera do outro lado da sala. A frase
ouvida na voz de H2 faz referência a uma terceira pessoa da qual ela precisou se
livrar. Neste momento, identificamos a primeira alteração humana na composição da
narrativa diretamente no roteiro. A cena original é composta apenas de ações dos
personagens e mantem-se igual até H atender o telefone. Não há indicações que H2
estava do outro lado da linha com H ou o que ela poderia ter falado. No entanto, a fala
foi adicionada a montagem final curta e seu resultado foi a modalização do
personagem H para os próximos acontecimentos da narrativa. A cena continua da
mesma forma como foi elaborada no roteiro original: H aproxima-se da parede,
remove uma pistola e a aponta contra a própria boca. Nenhum tiro é disparado. A
câmera aponta para baixo e no chão vemos um portal em forma de buraco pelo qual
se vê uma pessoa desmaiada.
A fala adicional de H2, utilizando o recurso de voice over, foi estrategicamente
posta antecedendo uma ação que influencia diretamente a estabilidade narrativa em
do curta-metragem. A intenção de suicídio de H é uma ação forte e ficaria sem
qualquer motivação aparente antes ou depois da tentativa. Dessa forma, encaixar a
fala de H2 modaliza o personagem em sua ação e cumpre um contrato enunciativo
com o espectador de que esta ação não está sendo tomada de forma impulsiva, mas
trabalhada a partir de uma motivação. A primeira fala de H2 (eu só queria te falar que
eu sou muito melhor que ele) faz uma comparação da própria personagem com um
terceiro. Já a segunda frase se relaciona a uma medida drástica que precisou ser
tomada com pressa. Esta identificação fica evidente nos trechos “eu tive de pará-lo” e
“não consegui nem te contar”. O momento é encerrado com um mergulho da câmera
no buraco negro do chão a abertura em um novo cenário.
Em um novo ambiente externo H encontra C caído no chão. Este novo cenário
é destoante de todos os outros do curta-metragem, sem uma grande população de
figuras que façam referência a tecnologia ou futurismo. A presença de H nesta cena
76
indica, em uma trajetória linear, que o personagem desistiu do suicídio. Algumas
figuras identificam um desenrolar do arco narrativo do personagem H: a mochila em
suas costas e uma porta, no fundo da cena, fechando-se indicam que o personagem
está saindo daquele lugar. Ao visualizarmos um panorama de toda a narrativa,
podemos identificar que a fala de H2 no telefone com H no momento anterior não
modalizou o personagem apenas a tentativa de suicídio, mas também a fazê-lo ir
embora. Podemos identificar que o trecho inserido por um humano no roteiro
autônomo reverbera sobre a geração de sentido do curta, como uma correção de
curso narrativo, acompanhando os arcos dos personagens até o fim do texto.
H remove de sua mochila uma bolsa plástica selada com um líquido vermelho
que se assemelha a sangue. O personagem abaixa-se ao pé de C e chora. O trecho
referente a cena no roteiro original é “ele vem atrás dele para protegê-lo. Ele ainda
está de pé ao lado dele43 ”. O momento representa o clímax da narrativa, iniciando a
resolução dos conflitos estabelecidos nos momentos anteriores. C está morto e este
é fim de seu arco narrativo. No entanto, o conflito H vs C por H2 termina de forma
43 Trecho original: He comes up behind him to protect him. He is still standing next to him
77
disfórica, com os dois personagens em disjunção com o objeto-valor. H demonstra a
intenção de deixar tudo e seguir com um plano alternativo ao segurar a bolsa de
sangue para talvez vendê-la para sobreviver sem um emprego, uma ideia citada
anteriormente já no primeiro momento do curta-metragem. O roteiro marca a remoção
de uma bolsa da mochila mas não indica seu conteúdo: “ele olha para a bolsa da
mochila e começa a chorar 44”. A construção da figura de uma bolsa de sangue neste
momento da narrativa pode indicar mais uma alteração semântica do roteiro original
por parte dos autores do curta-metragem. A forma como Benjamin cria, que será
explorada no capítulo seguinte, faz com que seja muito baixa a probabilidade do curta
fazer uma referência a um elemento anterior já citado. Assim, mesmo que este trecho
tenha sido criado pelo sistema, este provavelmente não fez qualquer ligação com a
possibilidade de venda de sangue citada no primeiro momento. Logo, a utilização do
sangue como conteúdo da bolsa demarca a atribuição semântica a uma figura que já
estava presente no curta, criando uma reiteração sobre o final disfórico do arco
narrativo do personagem H.
Bom, existe essa situação entre mim e a luz na nave. O cara estava tentando
me parar. Ele é como um bebê e foi embora. Eu estava preocupada com ele. Mas
mesmo se ele tivesse feito tudo. Ele não conseguiria voltar. Eu não pretendo ser
uma virgem. Quer dizer, ele era fraco. E eu pensei em mudar de ideia. Ele era louco
para ir embora. Foi a muito tempo atrás. Ele estava um pouco atrasado. Eu ia ser
44 Trecho original: He looks at the bag from his backpack, and starts to cry.
78
um momento. Eu só queria te contar que eu sou muito melhor que ele. Eu tive de
pará-lo e não consegui te contar. Eu não queria machuca-lo. Me desculpe. Eu sei
que eu não gosto dele. Eu posso ir para casa e ser tão má e eu o amo. Então eu
posso pegá-lo todo o caminho até aqui e encontrar o quadrado e ir para o jogo com
ele e ela não vai aparecer. Então eu vou dar uma olhada. Mas eu não vou ver ele
quando ele chegar para mim. Ele olha para mim e me joga fora dos olhos. Então ele
disse que iria para a cama comigo.
79
Fonte: Reprodução / Sunspring
80
Este julgamento é representado durante a ligação de H2 para H em que a personagem
indica que já se livrou C. A repercussão deste julgamento é forte para H, levando-o a
tentativa de suicídio. O personagem desiste desta tentativa, mas ainda precisa passar
pela consequência de sua deserção. O programa narrativo de retribuição dá a H sua
punição, expulsando-o da nave, forçando o personagem a encontrar uma forma
alternativa para sobreviver.
83
semelhante ao Benjamin, para uma tradução desta meta semântica em dispositivos
de geração de sentido.
84
CAPÍTULO 3
A CONSTRUÇÃO DO SENTIDO EM TEXTOS AUTÔNOMOS
85
CAPÍTULO 3
A CONSTRUÇÃO DO SENTIDO EM TEXTOS AUTÔNOMOS
Este capítulo tem como objetivo apresentar, sob o aporte comunicacional, uma
análise da criação de texto de forma autônoma em sistemas semelhantes a Benjamin.
Para isto, nossa metodologia consistiu em utilizar um software para a criação de texto
autônomo com os mesmos dados utilizados para a geração de Sunspring e analisar o
resultado ao final. Além disso, avaliaremos a criação de uma camada de geração
semântica para estes sistemas, a partir das estruturas do percurso gerativo de sentido,
e a forma como está deve ser constituída.
86
licença Creative Common Attribution na plataforma de versionamento GitHub, que
indica que seu uso é permitido desde que sejam feitas as devidas menções ao autor.
Fonte: Reprodução/GitHub
Em seus artigos How to write with artificial intelligence e Harry Potter: Written
by Artificial Intelligence, o jornalista Max Deutsch apresenta como utilizou o WRT para
a criação de novos trechos em texto com os personagens da franquia Harry Potter. O
autor mantém uma coluna no site Medium com trechos de Harry Potter e outras
franquias, todas geradas a partir do uso de inteligência artificial. Para que o WRT
funcione, é preciso que grandes trechos de texto semelhantes a saída desejada sejam
adicionados ao seu banco de dados. Após a adição dos dados, é preciso iniciar o
treinamento do sistema, momento em que as técnicas de deep learning serão
aplicadas sobre o conteúdo de forma que um algoritmo de criação autônoma possa
ser criado. O treinamento com os dados é a etapa fundamental de todo o processo e,
de forma geral, a quantidade e a qualidade dos dados inseridos afetarão o algoritmo
de criação final. De forma semelhante a Max Deutsch, conduzimos inicialmente um
experimento de criação de texto de forma autônoma, inserindo no banco dados do
sistema todos os livros da franquia Harry Potter em seu idioma original, o inglês. Para
isto, foi preciso selecionar apenas os textos dos livros, removendo a formatação e as
informações que podem confundir o sistema, como a numeração das páginas, índices
dos livros e o nome dos capítulos. A escolha do idioma inglês foi apenas para manter
a reprodução das características dos experimentos de Deutsch, já que o WRT não
88
utiliza nenhuma biblioteca de linguagem natural pronta, permitindo que qualquer
idioma fosse utilizado.
Após a adição dos livros, foi dado início ao treinamento do sistema. Sua
duração foi de aproximadamente 1 hora e 20 minutos de processamento. Para a
execução do treinamento, é preciso a instalação do TensorFlow no computador. Para
este experimento, devido à grande quantidade de dados a serem processados, foi
utilizada a versão do TensorFlow com processamento pela GPU, placa de vídeo.
Nesta versão, o processamento não ocorre somente pelo processador do computador,
como em softwares comuns, mas de forma conjunta entre o processador e a placa de
vídeo, permitindo mais performance ao sistema. Dessa forma, foi possível garantir que
o treinamento fosse realizado de maneira mais rápida pelo sistema. Com o fim do
treinamento, foi possível gerar nossos primeiros trechos de Harry Potter escritos por
uma inteligência artificial.
Para que um trecho fosse criado, foi preciso que algumas tentativas fossem
realizadas anteriormente. Assim como descritos por SHARP e GOODWIN (2017), os
processos de criação de texto, ao menos no Benjamin e no WRT, ainda não possuem
um elevado grau de acerto, gerando texto que não se encaixam a qualquer norma
padrão da língua. Por isso, o primeiro critério de seleção humano após a criação de
90
um trecho já é semântico, de forma que deve selecionar e preparar o trecho para a
apresentação.
91
Para a criação de um resultado mais sucinto, foi proposto que o sistema
gerasse apenas alguns diálogos ao invés de um roteiro de curta-metragem completo.
Esta escolha foi feita em vias de beneficiar o processo de análise do trecho gerado.
Dessa forma, foram definidos, assim como em Sunspring, letras para os nomes dos
personagens. Esta escolha em nosso texto e em Sunspring é um reflexo da forma
como o sistema escolhe os nomes. Em seu processo de criação, o sistema segue a
estrutura de indicações dos nomes dos personagens seguidos por suas falas, como
são formatados os roteiros. Em alguns momentos, o sistema será induzido pela base
a indicar uma ação ou um cabeçalho de cena, indicando a localidade e as condições
do ambiente.
92
ORANGE
L
Você vai dormir aqui, mas eu disse que vai ser simpático.
Tudo graças à casa de quatro moedas.
R
As pessoas podem fazer mais.
L
Não é uma ligação! Deveria ser.
R (para o robô)
Pode continuar sendo a criatura e as portas continuam.
J
CHUVA!
L
Você nunca captou um sinal de energia e ...
R
Deixe-me falar com alguém desligado, então eu vou ficar no lugar.
Deus não gosta de mim.
93
L
Encontramos a busca pela nossa palavra "germes"!
R
Um burocrata caminha para si e o Black Widow chama o grande complexo.
L
O conhecimento é uma escolha. Fique longe de um feliz.
R
Não odeia isso? Não, eu odeio qualquer modificação no tempo que estamos.
L
Eu sabia que você não concluiria
R
Você está certo. Você me encontra. Dois olhares devem ser selados em uma certa
casa.
L (O.S.)
Precisamos de uma bala neste capacete.
45 Tradução nossa: No entanto, embora esses modelos [de redes neurais] conseguem precisões
impressionantes em previsões, eles aninham-se com uma estrutura não linear que os faz não-
transparentes. Isto é, não são informações claras na entrada que fazem elas chegar em uma decisão.
Portanto, esses modelos são considerados caixas opacas.
95
Este tipo de resultado é uma preocupação entre diversos pesquisadores da
área de IA, principalmente em sistemas que relacionam dados a resultados que
podem influenciar diretamente a vida de um cidadão, como, por exemplo, a obtenção
de um benefício de auxílio social. Em entrevista ao jornal El País 46, a pesquisadora
Kate Crawford da Universidade de Nova York e diretora de pesquisa em IA da
Microsoft, afirma que sistemas, como as redes neurais, podem ser alvos de uma
marginalização humana, sendo treinados e programados a partir de dados que já
apresentam algum tipo de injustiça internalizada. O Google Fotos está entre os
exemplos de aplicações que podem ter sido treinadas de forma a marginalizar
algumas pessoas. Ao fazer a identificação facial e separar pessoas e animais em
grupos de fotos, o aplicativo agrupava no mesmo conjunto pessoas negras e
chipanzés. Este erro do aplicativo foi identificado em junho de 2015 e foi atribuído ao
treinamento do sistema com poucas fotos de pessoas negras. Foi preciso então uma
correção de dados do treinamento do sistema, permitindo assim uma identificação e
classificação mais concisa das fotos.
Assim como os sistemas que CRAWFORD (2018) cita que não possuem essa
transparência de como funcionam, o WRT também não pode ser explicado. Sua
configuração descreve as etapas de construção, mas seu treinamento é baseado em
diversos outros fatores que não permitem a visualização de uma camada opaca entre
os dados de entrada e a saída concebida. Dessa forma, ao utilizarmos o sistema para
a construção de um texto, estamos processando uma tentativa de construção de um
sentido por uma aplicação em que sua própria forma de funcionamento não está em
um nível semântico atingível. O resultado é a expressão de um conjunto de atribuições
computacionais expresso em um suporte humano, no caso, o texto escrito.
46 Disponível em https://brasil.elpais.com/brasil/2018/06/19/actualidad/1529412066_076564.html.
Acesso em 20 jun. 2019
96
este movimento. ” Go é um jogo de tabuleiro de estratégia jogado entre dois
adversários. O objetivo do jogo é conseguir cercar com peças pretas e brancas a maior
área possível do tabuleiro. Estima-se que o número de possibilidade de movimentos
de Go é de 10171, enquanto no xadrez o máximo é de cerca de 1050. Estimasse que
número de possibilidades de jogadas em Go supera a quantidade de átomos no
universo. Com uma quantidade de combinações impossíveis de se calcular, o
supercomputador AlphaGo foi desenvolvido a partir dos dados de outras partidas e a
análise de como os jogadores criam suas estratégias. Durante uma das cinco disputas
entre o AlphaGo e o campeão mundial do jogo, o coreano San Hui, o computador
realizou uma jogada que parecia um erro de iniciante. A probabilidade calculada pelo
próprio computador de um humano realizar uma jogada igual era de uma em 10.000.
No vigésimo movimento após a jogada do AlphaGo foi identificado a área de controle
no tabuleiro que resultou na derrota do coreano. Avaliada pelo time da Google, a
jogada não pode ser explicada de forma completa, pois a camada opaca impede o
total entendimento humano de como o computador chegou a determinada conclusão.
97
saída, assemelhando-se até mesmo ao processo de negociação. Benjamin ou o WRT
não possuem tantas camadas de abstração de processamento como o AlphaGo, mas
possibilitaram a visualização de saídas baseados em processos que não são
atingíveis pela compreensão humana.
O trecho “vemos a sala vazia” provavelmente foi selecionado por vir após um
cabeçalho. A descrição do ambiente normalmente é encontrada em roteiros logo após
o cabeçalho da cena e antes da descrição de ação. A frase, que pode ter sido
classificada de forma que articula com outra, é seguida de “em uma rocha estreita,
vemos J”. O caráter confuso do trecho continua em “ele está se segurando sobre uma
mesa”. A contradição do trecho, iniciada já no cabeçalho que descreve como ambiente
um terraço externo, está entre os pontos de demonstração da aleatoriedade presente
no sistema. O ambiente externo passou a ser uma sala. A sala vazia passou a ter uma
mesa e uma rocha e J está nos dois lugares ao mesmo tempo. As características
confusas do trecho remetem as descrições de cenas de Sunspring, em que um
personagem ocupa dois espaços ao mesmo tempo. A criação de três frases
consecutivas que se contrapõe demonstra o caráter apenas gerativo do WRT e do
Benjamin. Ambos os sistemas são programados para processar apenas a próxima
palavra, sem qualquer garantida de fundamentação de uma narrativa. As palavras
escolhidas influenciam na seleção das próximas, no entanto, estas não influenciam
na concepção do texto como um todo de sentido, apenas de construção de
recorrências quantitativas. A criação de uma obra com estrutura teleológica fica
99
comprometida com as atuais configurações do WRT e Benjamin, em que não existem
um armazenamento de recorrências qualitativas ou um cálculo sobre todas as
possibilidades de ações entre os personagens. Utilizamos o WRT, assim como Sharp
e Goodwin utilizaram o Benjamin, para a construção de um objeto que extrapola suas
definições, de forma que, ao projetar uma frase ambos os sistemas são bem-
sucedidos, mas ao conecta-la com a próxima o resultado é falho. Podemos fazer uma
analogia da forma como estes sistemas criam seus conteúdos com a própria história
dos estudos linguísticos, em que, anteriormente, a frase era dada como unidade de
sentido máxima, independente sua semântica do texto (DIANA, 2005). Por isso,
durante a leitura, podemos verificar diversos pontos de confusão, já que as frases
estão desconexas um conjunto semântico.
102
mais concreta. A criação autônoma percorre do nível mais baixo para o mais alto,
levando para a superfície o resultado do processamento. A partir desta configuração,
podemos avaliar a construção de um nível intermediário entre a abstração da
construção e a concretude do texto. Este nível de intermédio poderá atuar como um
construtor semântico, de forma que deve avaliar sempre os resultados de suas
entradas para garantir uma saída aceitável.
O nível intermediário proposto deve atuar como uma forma de tradução entre
os níveis de construção e exibição, como apresentado na figura. Ao organizarmos
esta estrutura como um nível de concepção semântica, ela pode agir como como um
intermediador da compreensão, de forma que tenta selecionar e organizar os
elementos gerador pela rede neural. Dessa forma, a camada intermediária deve limitar
os resultados gerados pela IA. Podemos fazer uma comparação desta restrição dos
conteúdos produzidos com algumas críticas a camada limitadora do Mexica-impro.
Enquanto a aplicação de Pérez y Pérez limitava as ações de seus personagens a
partir de variáveis definidas anteriormente ao início do processo de produção do texto,
nossa proposta utiliza o percurso gerativo de sentido após o início do processamento
da rede neural. Desta forma, o aspecto da criatividade da máquina, demonstrada pelo
caráter de produção de texto abstrato a partir das recorrências, é mantido.
103
A manutenção desta característica ressalta a importância da comunicação
entre as camadas, não apenas de forma linear, mas dialógica. Desta forma, a camada
intermediária atua como controladora de todo o sistema. Após a primeira execução, o
nível intermediário deve acompanhar o nível de exibição da narrativa em busca de
necessidades e requisitar do nível de construção novas gerações textuais a partir de
parâmetros verificados como faltantes. Assim como um roteirista humano que utiliza
o WRT para a gerar novos trechos conforme sua necessidade, a camada intermediária
deve compilar todas estas tarefas. O sistema ganha complexidade à medida que tenta
simular esta seleção humana, criando parâmetros de criação e singularizando
diversas execuções de criações na rede neural para compor um único texto.
105
Fonte: Montagem do autor
106
As projeções pessoa, espaço e tempo estão na sintaxe do nível discursivo do
percurso gerativo do sentido. Estas projeções são fundamentais para o processo de
enunciação e podem servir como guia da criação de textos autônomos. A partir da
identificação de indícios nos textos inicias gerados pela rede neural, o sistema pode
reconhecer e indicar de volta a construção, agora como um parâmetro, que novos
trechos sejam criados a partir de uma projeção em particular. As projeções de pessoa,
espaço e tempo também podem servir como elementos balizadores do sistema, com
a constante verificação para que não exista a quebra destes pontos. Como exemplo,
podemos citar o trecho do primeiro cabeçalho de cena de Orange, em que projeções
de espaço diferentes se contrapõe, causando confusão à leitura do texto. Outros
pontos de destaque para a programação das projeções estão relacionados a criação
e posicionamento dos personagens na narrativa. Com um gigantesco acervo de
substantivos próprios dado pelo corpus, o WRT constantemente gera um novo
personagem. A partir de um completo entendimento de quem são os personagens, e
onde eles estão posicionados, o sistema pode parametrizar melhor suas criações.
107
fatores devem influenciar uma decisão e com diversos pesos. Ainda assim, o cálculo
não é exato, já que diversos fatores humanos e criativos devem ser postos.
Outro elemento que deve fazer a passagem do âmbito semântico para atuar
diretamente na concretude da narrativa é o de identificação de temas, disposto no
nível da semântica discursiva. Segundo DIANA (2005, p. 66) “ tematizar um discurso
é formular os valores de modo abstrato e organizá-los em percursos. Em outras
palavras, os percursos são constituídos pela recorrência de traços semânticos ou
semas, concebidos abstratamente. ” Para a criação de textos com o sistema proposto,
o processo de tematização deve ser emulado diretamente na seleção dos elementos.
A abstração dos percursos temáticos ganha forma com a figurativização, que recobre
com traços sensoriais os percursos. Esta figurativização é expressa em roteiros na
maioria das vezes em descrições de ambientes e ações, tornando-se para o sistema
uma informação complementar da narrativa criada e esquematizada no nível
intermediário. O processo de figurativização durante a etapa de construção e
adequação narrativa pela camada intermediária exigem que o sistema possa
processar indícios de intenções de temas, para assim, poder recobrir figurativamente
estes. Esta etapa exige um constante treinamento do sistema em entender contextos
e emoções expressas nos blocos de textos gerados, além de um banco de recursos
figurativos que possam ser adequados as temáticas encontradas.
109
CONSIDERAÇÕES FINAIS
110
CONSIDERAÇÕES FINAIS
112
construção de níveis intermediários. A partir da implementação de bibliotecas de
linguagem natural que possuam um sentido absoluto para as palavras, ou seja, que
não funcionem apenas das recorrências do corpus, um novo texto pode ser criado a
partir de uma parametrização.
113
REFERÊNCIAS BIBLÍOGRÁFICAS
114
REFERÊNCIAS BIBLÍOGRÁFICAS
ALPHAGO. Greg Kohs. Russia: Moxie Pictures, 2018. Distribuição digital sob
demanda.
BARROS, Diana Luz Pessoa de. Teoria semiótica do texto. Ed. 4. São Paulo:
Atíca, 2005.
EMC Digital Universe. The Digital Universe of Opportunities: Rich data & the
increasing value of the internet of things. 2014, disponível em: <
https://uk.emc.com/collateral/analyst-reports/idc-digital-universe-2014.pdf> acesso
em: 21 jan. 2019.
FIORIN, José Luiz. A noção de texto na semiótica. São Paulo: Contexto, 1999.
115
FLOCH, Jean-Marie. Alguns conceitos fundamentais em semiótica geral.
Tradução Analice Dutra Pilar. In: Documentos de estudos do centro de pesquisas
sociossemióticas. São Paulo. 2001.
GUARDIAN, The. Artificial intelligence: ‘We’re like children playing with a bomb’.
2016, disponível em <https://www.theguardian.com/technology/2016/jun/12/nick-
bostrom-artificial-intelligence-machine> acesso em: 20 jan. 2019.
116
IBM. Scaling Wimbledon’s video production of highlight reels through AI
technology. 2017, disponível em: <
https://www.ibm.com/blogs/research/2017/06/scaling-wimbledons-video-production-
highlight-reels-ai-technology/> acesso em: 20 jan. 2019.
JENKINS, Henry. Convergence Culture: Where Old and New Media Collide. Nova
York: NYU Press, 2008.
PAIS, El. Kate Crawford: “Estamos injetando nos algoritmos as nossas limitações, a
nossa forma de marginalizar”. 2018. Disponível em
https://brasil.elpais.com/brasil/2018/06/19/actualidad/1529412066_076564.html
Acesso em 20 jun. 2019
117
PRIMO, Alex. Conhecimento e interação: fronteiras entre o agir humano e
inteligência artificial. In: LEMOS, A.; P. CUNHA (Eds.). Olhares sobre a cibercultura.
Porto Alegre: Sulina, 2003. p. 37-56.
SMITH, John. R. IBM Research Takes Watson to Hollywood with the First
“Cognitive Movie Trailer”. 2016, disponível em: <
https://www.ibm.com/blogs/think/2016/08/cognitive-movie-trailer/> acesso em: 20 jan.
2019.
118
APÊNDICES
119
Roteiro em português do curta-metragem Sunspring.
Nota: O roteiro foi traduzido a partir do original disponibilizado pelos autores e sua
diagramação foi alterada com o propósito de melhor leitura
INT. NAVE
Vemos H puxar um livro de uma prateleira, folheá-lo enquanto fala e depois colocá-lo
de volta.
H
Num futuro com desemprego em massa, os jovens são forçados a vender sangue.
Essa é a primeira coisa que posso fazer
H2
Você deveria ver os meninos e calar a boca. Eu era a pessoa que teria cem anos.
H
Eu o vi novamente. A maneira como você foi enviado para mim ... foi uma grande ideia
honesta. Eu não sou uma luz brilhante.
C
Bem, eu tenho que ir ao crânio. Eu não sei.
Ele pega uma tela de luz e luta contra a força de segurança das partículas de uma
transmissão em seu rosto.
H
(continuando)
O que você quer dizer?
C
(sorrindo)
Eu não sei nada sobre isso.
120
H
(para Hauk, tirando os olhos da boca)
Então o que?
H2
Não há resposta.
C
(franzido)
Nós vamos ver o dinheiro.
H
(lendo)
"Tudo bem, você não pode me dizer isso."
C
Eu estava chegando nessa coisa porque você era tão bonita.
H
Eu não sei. Não sei do que você está falando.
C
Está certo.
H
Então, o que você está fazendo?
H2
Eu não quero ser honesta com você.
Ele olha para ele por um momento e depois sorri para ele.
121
H
Você não precisa ser médico.
H2
Não tenho certeza. Não sei do que você está falando.
H
Eu quero ver você também.
H2
O que você quer dizer?
H
Sinto muito, mas tenho certeza que você nem me tocou.
H2
Não sei do que você está falando.
H
O princípio é completamente construído para o mesmo tempo.
H2
(sorrindo)
Era tudo sobre você para ser verdade.
H
Você nem viu o filme com o resto da base.
H2
Eu não sei.
122
H
Eu não ligo
H2
Eu sei que é uma consequência.
O que quer que você queira saber sobre a presença da história, sou um garoto meio
no chão.
H
Eu não sei. Eu só tenho que pedir para você me explicar o que você diz.
H2
O que você quer dizer?
H
Porque eu não sei do que você está falando.
H2
Isso foi o tempo todo.
H
Eu sei disso.
H2
Eu não sei.
H
(bravoi
Seria um bom momento. Eu acho que poderia ter sido minha vida.
123
H (continuação)
Pode nunca ser perdoado, mas isso é muito ruim. Eu tenho que sair, mas não estou
livre do mundo.
C
Sim. Talvez eu deva tirar daqui. Eu não vou fazer algo.
H
Você não pode levar isso para qualquer lugar. Não é um sonho. Mas tenho um bom
momento para ficar lá.
C
Bem, acho que você ainda pode estar de volta à mesa.
H
Mmm. É uma coisa maldita com medo de dizer. Nada vai ser uma coisa, mas fui eu
que caí nessa pedra com uma criança e depois deixei as outras duas.
Ele está parado nas estrelas e sentado no chão. Ele se senta no balcão e puxa a
câmera para as costas. Ele a encara. Ele está no telefone. Ele corta a espingarda da
borda da sala e a coloca na boca.
T
Bom, existe essa situação entre mim e a luz na nave. O cara estava tentando me
parar. Ele é como um bebê e foi embora. Eu estava preocupada com ele. Mas mesmo
se ele tivesse feito tudo. Ele não conseguiria voltar. Eu não pretendo ser uma virgem.
Quer dizer, ele era fraco. E eu pensei em mudar de ideia. Ele era louco para ir embora.
Foi a muito tempo atrás. Ele estava um pouco atrasado. Eu ia ser um momento. Eu
124
só queria te contar que eu sou muito melhor que ele. Eu tive de pará-lo e não consegui
te contar. Eu não queria machuca-lo. Me desculpe. Eu sei que eu não gosto dele. Eu
posso ir para casa e ser tão má e eu o amo. Então eu posso pegá-lo todo o caminho
até aqui e encontrar o quadrado e ir para o jogo com ele e ela não vai aparecer. Então
eu vou dar uma olhada. Mas eu não vou ver ele quando ele chegar para mim. Ele olha
para mim e me joga fora dos olhos. Então ele disse que iria para a cama comigo.
125