A algumas semanas, a Microsoft e a OpenAI lançaram uma prévia técnica do GitHub Copilot, um assistente baseado em IA para ajudar os programadores a escrever códigos melhores.
Para não ser confundido com o preenchimento automático, esse assistente leva o contexto do código em trabalho para sugerir linhas de código e funções sucessivas.
O Copilot é baseado no OpenAI Codex, um sistema de IA treinado em código-fonte público – funciona bem com linguagens como Python, TypeScript, Javascript, Ruby e Go.
O anúncio do GitHub Copilot deu início a uma tempestade nas redes sociais. A reação inicial foi amplamente positiva, com muitas pessoas chamando o assistente de codificação de uma virada de jogo.
No entanto, algumas questões foram levantadas: uma vez que a ferramenta é treinada em repositórios de código disponíveis publicamente – a maioria dos quais são licenciados e sob proteção de direitos autorais – o que acontece quando a ferramenta reproduz esses trechos de código? Isso é legal?
As organizações-mãe – Microsoft, OpenAI e GitHub – podem monetizar essa ferramenta, mesmo que seja treinada em código-fonte aberto e gratuito?
Violação de direitos autorais
O GitHub disse que há 0,1 por cento de chance do Copilot replicar o trecho de código aprendido literalmente.
Como um usuário do Twitter apontou, este pode ser um caso potencial de “lavagem de código” para uso comercial, que envolve não apenas a cópia do conteúdo como está, mas também trabalhos derivados.
O GitHub permite que os usuários escolham uma licença para proteger seu trabalho. As licenças mais comuns incluem MIT, Apache e GPL.
No qual, a GPL é uma licença copyleft gratuita que oferece proteção contra a cópia literal do trabalho e também exige a distribuição de trabalho derivado sob os mesmos termos ou equivalentes.
No Twitter um usuário perguntou se o Copilot está seguindo os termos de uso do código justo. Para esse fim, o CEO do GitHub, Nat Friedman, escreveu em um tópico de discussão no HackerNews:
“Em geral: (1) treinar sistemas de ML em dados públicos é “fair use” (2) a saída pertence ao operador, assim como com um compilador. Sobre a questão do treinamento especificamente, você pode encontrar a posição da OpenAI, conforme submetida ao USPTO aqui: https://www.uspto.gov/sites/default/files/documents/OpenAI_R… Esperamos que IP e AI sejam uma política interessante discussão em todo o mundo nos próximos anos, e estamos ansiosos para participar!”
Cada dia se torna mais necessário buscar formas de proteger material autoral. O uso de redes privadas virtuais, como VPNs iOS que protegem informações confidenciais, são uma boa saída para aqueles que desejam proteger seus códigos, artes e trabalhos criativos que demandem uma camada extra de proteção online.
Suporte para GitHub Copilot
Neil Brown, um especialista jurídico no espaço digital, falou sobre o Copilot. Em seu blog, Brown explicou a passagem D4 dos Termos de Serviço do GitHub.
De acordo com esta passagem, o GitHub pode copiar o conteúdo de um usuário para o banco de dados, criar backups, mostrá-lo a outros usuários, analisar um mecanismo de pesquisa e analisá-lo em seus servidores.
Brown escreve:
“A licença é amplamente redigida e estou confiante de que há espaço para discussão, mas se descobrir que o Github não exige uma licença para suas atividades, então, em relação ao código hospedado no Github, eu suspeito poderia fazer um caso razoável de que a concessão de licença obrigatória em seus termos cobre isso contra o uploader. ”
Dito isso, o GitHub também observa na mesma passagem que esta licença não concede permissão para vender conteúdo, distribuí-lo ou usá-lo fora do escopo do serviço.
Além disso, Julia Reda, pesquisadora e ex-membro do Parlamento Europeu, escreveu um artigo em seu blog (mais inclinado para a perspectiva da União Europeia) intitulado “O copiloto do GitHub não está infringindo seus direitos autorais”. Ela apresenta seu argumento em duas partes.
- Mineração de dados e texto: meramente ler o código sem o consentimento do autor, embora digno de crítica, não é um ato relevante de direitos autorais que requer permissão.
- Trabalhos derivados e código gerado por máquina: colocar o código gerado por máquina sob a alçada de trabalhos derivados é “perigoso”.
Em primeiro lugar, essa suposição sugere que mesmo o menor trecho de trechos pode constituir violação de direitos autorais. Em segundo lugar, a própria premissa de que as máquinas são capazes de produzir obras é errada e contraproducente.
Os snippets de código aparecem literalmente quando o desenvolvedor não fornece contexto suficiente ou quando há uma solução universal para o problema, afirma o blog do GitHub.
Além disso, a equipe do GitHub está construindo um rastreador de origem para detectar tais instâncias de duplicação de código.
Considerações finais
O GitHub em seu blog menciona claramente que o Copilot deve ser visto estritamente como um programador de IA para auxiliar na escrita de códigos.
Os programadores que tiveram acesso à ferramenta transmitiram sentimentos semelhantes, afirmando que, embora o Copilot seja impressionante, ele não pode ser comparado a programadores humanos.
De acordo com o blogueiro Colin Eberhardt, o Copilot tem o fator “uau” para chegar ao conjunto de ferramentas padrão das empresas. No entanto, ele acha que levará algum tempo para que o assistente de codificação forneça um aumento genuíno de produtividade.
COMENTÁRIOS