Share this article

A Cripto T Precisa Temer o GPT-3. Ela Deve Abraçá-lo

Em vez de ter medo do processador de linguagem GPT-3, a comunidade de Cripto deveria aproveitar seus avanços em aprendizado profundo.

(Chuttersnap/Unsplash)
(Chuttersnap/Unsplash)

Jesus Rodriguez é o CEO da IntoTheBlock, uma plataforma de inteligência de mercado para Cripto . Ele ocupou cargos de liderança em grandes empresas de Tecnologia e fundos de hedge. Ele é um investidor ativo, palestrante, autor e palestrante convidado na Universidade de Columbia.

STORY CONTINUES BELOW
Don't miss another story.Subscribe to the The Protocol Newsletter today. See all newsletters

Nos últimos dias, houve uma explosão de comentários na comunidade Cripto sobre o novo modelo de gerador de linguagem GPT-3 da OpenAI. Alguns dos comentários expressam curiosidade útil sobre o GPT-3, enquanto outros são um BIT extremos, afirmando que a comunidade Cripto deveria estar aterrorizada com isso.

O interesse é um tanto surpreendente porque os modelos GPT não são exatamente novos e têm sido manchetes na comunidade de aprendizado de máquina há mais de um ano. A pesquisa por tráso primeiro modelo GPT foi publicado em junho de 2018, seguido pela GPT-2 em fevereiro de 2019 e mais recentemente GPT-3 há dois meses.

Veja também:O que é GPT-3 e devemos ficar apavorados?

Acho improvável que o GPT-3 por si só possa ter um grande impacto no ecossistema Cripto . No entanto, as técnicas por trás do GPT-3 representam o maior avanço em aprendizado profundo nos últimos anos e, consequentemente, podem se tornar incrivelmente relevantes para a análise de criptoativos. Neste artigo, gostaria de dedicar alguns minutos para mergulhar em alguns dos conceitos por trás do GPT-3 e contextualizá-lo para o mundo Cripto .

O que é GPT-3?

GPT-3 é um modelo de entendimento de linguagem natural (NLU) massivamente grande que usa espantosos 175 bilhões de parâmetros para dominar diversas tarefas de linguagem. O tamanho faz do GPT-3 o maior modelo NLU do mundo, superando o Turing-NLG da Microsoft e seu predecessor GPT-2.

O GPT-3 é capaz de executar várias tarefas de linguagem, como tradução automática, resposta a perguntas, análise de linguagem e, claro, geração de texto. O GPT-3 capturou a atenção da mídia por sua capacidade de gerar texto falso que é indistinguível do real.

Como isso é relevante para Cripto? Imagine ter a capacidade de gerar regularmente comunicados de imprensa falsos que movem o preço dos Cripto menores? Parece uma ameaça assustadora, mas não é a parte mais importante do GPT-3.

GPT-3 é um modelo baseado em linguagem e, consequentemente, opera usando conjuntos de dados textuais. Do ponto de vista do mercado de Cripto , essa capacidade é legal, mas certamente não tão interessante. O que realmente deveríamos prestar atenção são as técnicas por trás do GPT3.

A magia por trás do GPT-3

O GPT-3 é baseado em uma nova arquitetura de aprendizado profundo conhecida como transformadores. O conceito de transformadores foi originalmente delineado no artigo "Atenção é tudo que você precisa, publicado em 2017 por membros da equipe do Google Brain.

A principal inovação da arquitetura do transformador é o conceito de “atenção” (daí o título do artigo). A atenção é tipicamente usada em um tipo de problema conhecido como Seq2Seq, no qual um modelo processa uma sequência de itens (palavras, letras, números) e gera uma sequência diferente. Esse tipo de problema é incrivelmente comum em cenários de inteligência de linguagem, como geração de texto, tradução automática, resposta a perguntas e assim por diante.

Toda vez que você vê um cenário Seq2Seq, você deve associá-lo ao que é chamado de arquiteturas codificador-decodificador. Os codificadores capturam o contexto da sequência de entrada e o passam para o decodificador, que produz a sequência de saída. Os mecanismos de atenção abordam as limitações das arquiteturas de rede neural tradicionais identificando os principais aspectos da entrada aos quais se deve “prestar atenção”.

Arquiteturas tradicionais de aprendizado profundo precisam de feedback constante entre codificadores e decodificadores, o que as torna altamente ineficientes.

Pense em um cenário de tradução automática do espanhol para o inglês. Normalmente, o decodificador traduzirá a entrada de texto em espanhol para uma representação intermediária conhecida como “linguagem imaginária” que será usada pelo decodificador para traduzi-la para o inglês. Arquiteturas de aprendizado profundo mais tradicionais precisam de feedback constante entre codificadores e decodificadores, o que as torna altamente ineficientes.

Conceitualmente, mecanismos de atenção olham para uma sequência de entrada e decidem a cada passo quais outras partes da sequência são importantes. Por exemplo, em um cenário de tradução automática, o mecanismo de atenção destacaria palavras às quais o decodificador “deveria prestar atenção” para executar a tradução.

A arquitetura do transformador que alimentou modelos como o GPT-3 é uma arquitetura tradicional de codificador-decodificador que insere blocos de atenção para melhorar a eficiência. O papel desse bloco é olhar para toda a entrada e saídas de corrente e inferir dependências que ajudarão a otimizar a produção da saída final.

A arquitetura do transformador produziu modelos que podem ser treinados em conjuntos de dados massivamente grandes e podem ser paralelizados eficientemente. Não é de surpreender que, após o artigo original do Google, tenha havido uma corrida para construir modelos supergrandes que dominem diferentes tarefas de linguagem.BERT do Google,RoBERTa do Facebook,Turing-NLG da Microsoft e OpenAI GPT-3são exemplos mais recentes desses modelos.

O GPT-2 surpreendeu o mundo ao operar usando 1,5 bilhão de parâmetros. Esse recorde foi quebrado pelo Turing-NLG da Microsoft, que usou 17 bilhões de parâmetros, apenas para o GPT-3 usar ridículos 175 bilhões de parâmetros. Tudo isso aconteceu em um ano. Simples e claro: quando se trata de transformadores, maior é melhor.

Veja também: Ben Goertzel -IA para todos: sistemas superinteligentes que recompensam criadores de dados

A primeira geração de arquiteturas de transformadores se concentrou em tarefas de linguagem. Mas, empresas comoFacebook e IA abertapublicaram pesquisas recentes adaptando modelos de transformadores para classificação de imagens. Você pode pensar que isso é apenas uma tentativa de gerar imagens falsas. Mas o impacto vai muito além disso.

A geração de imagens falsas é superimportante para agilizar o treinamento de modelos de classificação de imagens na ausência de grandes conjuntos de dados rotulados. Houvetenta adaptar transformadores a conjuntos de dados de séries temporais financeiras, com a esperança de que possam avançar estratégias de negociação quantitativa.

Transformadores e Cripto

Agora que temos algum contexto relacionado a transformadores e GPT-3, podemos revisitar a pergunta original. O GPT-3 é realmente assustador para Cripto ?

Claro, a perspectiva de modelos que podem gerar notícias falsas que movimentam os Mercados de Cripto não é brincadeira. Mas acho que, em sua forma atual, o GPT-3 não representa uma ameaça para o espaço Cripto . O que é mais interessante é o impacto que as arquiteturas transformadoras podem ter na próxima geração de soluções de inteligência Cripto . Aqui estão alguns cenários reais a serem considerados:

Estratégias de negociação. Obviamente, se os transformadores forem comprovadamente aplicáveis ​​a conjuntos de dados financeiros, eles podem ter um grande impacto em estratégias Quant para Cripto . Redes neurais profundas em geral estão abrindo novas fronteiras em negociações quantitativas. De modelos básicos de aprendizado de máquina como regressão linear ou árvores de decisão, fundos Quant agora estão olhando para estratégias sofisticadas de aprendizado profundo.

Sendo nativamente digital, a Cripto é a classe de ativos perfeita para estratégias Quant . Técnicas como redes neurais recorrentes (RNNs) e redes neurais convolucionais (CNNs) ganharam popularidade no espaço Quant e parecem funcionar bem em Cripto. Assim como na análise de linguagem, os transformadores podem ter uma vantagem sobre CNNs e RNNs, especificamente quando se trata de focar a “atenção” em vários segmentos de um conjunto de dados (por exemplo, durante a análise de março de 2020 Bitcoincrash) e também operam com volumes muito grandes de registros (por exemplo, transações de blockchain).

Mais interessante é o impacto que as arquiteturas de transformadores podem ter na próxima geração de soluções de inteligência Cripto .

Análise de blockchain.Os transformadores podem ser adaptados para detectar padrões em blockchains de maneiras computacionalmente mais eficientes do que os métodos atuais. Parte da mágica dos transformadores é sua capacidade de “focar a atenção” em partes específicas de um conjunto de dados de entrada e inferir saídas potenciais. Imagine um cenário em que estamos analisando transações de mineração de Bitcoin ou fluxos para exchanges e tentamos extrapolar padrões na atividade do livro de ordens. Os transformadores parecem particularmente bem equipados para atacar essa tarefa.

Transformadores descentralizados.Há esforços contínuos para adaptar modelos de transformadores a arquiteturas de IA descentralizadas comoSingularityNET. Esse tipo de caso de uso poderia expandir o uso de transformadores para cenários que ainda T imaginamos. Até agora, modelos de transformadores como o GPT-3 têm sido privilégio de grandes laboratórios corporativos de IA que têm os dados e recursos para construir e operar essas redes neurais massivas. A IA descentralizada oferece uma alternativa, na qual o treinamento, a execução e o monitoramento de transformadores podem ocorrer em redes descentralizadas que operam com base em mecanismos de incentivo.

Assim como outras arquiteturas de redes neurais conseguiram operar em infraestruturas descentralizadas, não é loucura pensar que em breve veremos modelos como o GPT-3 sendo executados em plataformas de IA descentralizadas como o SingularityNET ou o Ocean Protocol.

GPT-3 e a arquitetura do transformador representam um grande avanço na história do aprendizado profundo. Nos próximos anos, provavelmente veremos transformadores influenciando todas as principais áreas do aprendizado profundo, e a influência provavelmente se expandirá para os Mercados financeiros. A Cripto deve ser beneficiária desses avanços.

Sim, o GPT-3 é impressionante, mas não há razão para ficar aterrorizado. Muito pelo contrário, deveríamos trabalhar para adaptar essas grandes conquistas de IA e tornar a Cripto a classe de ativos mais inteligente da história.

Note: The views expressed in this column are those of the author and do not necessarily reflect those of CoinDesk, Inc. or its owners and affiliates.

Jesus Rodriguez

Jesus Rodriguez é o CEO e cofundador da IntoTheBlock, uma plataforma focada em habilitar inteligência de mercado e soluções DeFi institucionais para Mercados de Cripto . Ele também é o cofundador e presidente da Faktory, uma plataforma de IA generativa para aplicativos empresariais e de consumo. Jesus também fundou a The Sequence, uma das Newsletters de IA mais populares do mundo. Além de seu trabalho operacional, Jesus é palestrante convidado na Columbia University e na Wharton Business School e é um escritor e palestrante muito ativo.

Jesus Rodriguez