Vicuna: Alternativa Open-Source ao ChatGPT

Descubra o Vicuna-13B, a alternativa open-source ao ChatGPT. Explore os detalhes, desempenho e todo potencial.

Vicuna: Alternativa Open-Source ao ChatGPT
Vicuna: Alternativa Open-Source ao ChatGPT

O mundo dos chatbots tem visto avanços significativos nos últimos anos com o desenvolvimento de grandes modelos de linguagem, como o ChatGPT da OpenAI.

No entanto, os detalhes da arquitetura e treinamento do ChatGPT permanecem um mistério, tornando difícil para os pesquisadores construir sobre seus sucessos.

Aí entra o Vicuna - uma alternativa open-source ao ChatGPT, respaldada por um robusto conjunto de dados e infraestrutura escalável.

Neste artigo, vamos nos aprofundar nas capacidades do Vicuna, como foi desenvolvido e seu potencial para pesquisas futuras.

ChatGPT: Como exportar suas conversas
Aprenda como exportar suas conversas no ChatGPT usando duas extensões do Google Chrome. Salve suas conversas em vários formatos.

O Que é o Vicuna ou Vicuna-13B?

O Vicuna é um modelo de chatbot open-source chamado Vicuna-13B, criado por uma equipe de pesquisadores da UC Berkeley, CMU, Stanford e UC San Diego.

É construído através do aperfeiçoamento do modelo LLaMA com conversas compartilhadas pelos usuários do ShareGPT, e as avaliações preliminares mostram que ele atinge mais de 90% da qualidade do ChatGPT.

Notavelmente, o custo de treinamento do Vicuna-13B é de aproximadamente $300.

Como o Vicuna se Comporta?

O Vicuna demonstrou um desempenho impressionante em avaliações preliminares.

Ao afinar o Vicuna com 70.000 conversas compartilhadas pelos usuários do ChatGPT, o modelo torna-se capaz de gerar respostas detalhadas e bem estruturadas.

Sua qualidade é comparável ao ChatGPT e supera outros modelos, como LLaMA e Stanford Alpaca, em mais de 90% dos casos.

ChatGPT 4: O Guia Completo
O ChatGPT 4 está mudando a forma como a inteligência artificial interage. Descrubra como ele pode ser usado para melhorar a sua vida.

Desenvolvimento do Vicuna: Infraestrutura de Treinamento e Serviço

A equipe do Vicuna coletou cerca de 70.000 conversas do ShareGPT.com e aprimorou os scripts de treinamento fornecidos pelo Alpaca.

Eles usaram PyTorch FSDP em 8 GPUs A100 para o treinamento e implementaram um sistema de serviço distribuído leve.

A equipe também conduziu uma avaliação preliminar da qualidade do modelo, criando um conjunto de 80 perguntas diversas e utilizando o GPT-4 para julgar as saídas do modelo.

Para treinar o Vicuna, a equipe aprimorou o modelo base LLaMA usando conversas compartilhadas pelos usuários.

Eles garantiram a qualidade dos dados convertendo HTML de volta para markdown e filtrando exemplos inadequados ou de baixa qualidade.

Também fizeram várias melhorias na receita de treinamento, como otimizações de memória, manipulação de conversas em várias rodadas e redução de custos através de instâncias spot.

O sistema de serviço construído para o Vicuna é capaz de servir vários modelos com trabalhadores distribuídos.

Ele suporta plug-ins flexíveis para trabalhadores de GPU tanto de clusters locais quanto da nuvem.

Ao utilizar um controlador tolerante a falhas e a função gerenciada de spot no SkyPilot, o sistema de serviço pode funcionar bem com instâncias spot mais baratas de várias nuvens, reduzindo os custos de serviço.

A equipe do Vicuna disponibilizou o código de treinamento, serviço e avaliação no GitHub.

Google Bard: O Guia Completo Para Você
Entenda a nova inteligência artificial da Google e como ela compete com o ChatGPT. O que é, como funciona e para que serve.

Avaliando Chatbots com o GPT-4

Avaliar chatbots é uma tarefa desafiadora, mas a equipe do Vicuna propõe um framework de avaliação baseado no GPT-4 para automatizar a avaliação do desempenho do chatbot.

Eles elaboraram oito categorias de perguntas para testar vários aspectos do desempenho do chatbot e descobriram que o GPT-4 pode produzir pontuações relativamente consistentes e explicações detalhadas dessas pontuações.

No entanto, este framework de avaliação proposto ainda não é uma abordagem rigorosa, pois grandes modelos de linguagem como o GPT-4 são propensos a alucinações.

Desenvolver um sistema de avaliação abrangente e padronizado para chatbots permanece uma questão em aberto que requer mais pesquisas.

Limitações e Pesquisas Futuras

O Vicuna, como outros grandes modelos de linguagem, tem limitações em tarefas que envolvem raciocínio ou matemática.

Ele também pode ter dificuldades para se identificar com precisão ou garantir a precisão factual de suas saídas.

Além disso, ele não foi suficientemente otimizado para segurança, toxicidade ou mitigação de viés.

No entanto, o Vicuna serve como um ponto de partida aberto para pesquisas futuras para abordar essas limitações, juntamente com outras descobertas recentes no campo da IA, como o Auto-GPT e o LongChain.

Outro desenvolvimento interessante que pode ser a próxima grande novidade é unir o poder do ChatGPT e dos Dados.

Imagine poder simplesmente fazer uma pergunta a um Chat e obter visualizações de dados instantâneas e insights de dados sem ter que mexer com Excel, AirTable, Power BI ou codificação Python por horas.

É nisso que a Kanaries RATH está trabalhando.

Perguntas Frequentes

Como posso obter e usar os pesos do modelo Vicuna 13-b?

Para usar o modelo Vicuna 13-b, você precisa baixar o modelo original LLaMa 13B e aplicar os pesos delta fornecidos pela equipe Vicuna.

Os pesos delta podem ser encontrados em https://huggingface.co/lmsys/vicuna-13b-delta-v0.

Como aplico os pesos delta ao modelo LLaMa 13B?

Você pode aplicar os pesos delta seguindo o comando no repositório FastChat:

python3 -m fastchat.model.apply_delta --base /path/to/llama-13b --target /output/path/to/vicuna-13b --delta lmsys/vicuna-13b-delta-v0.

Este comando irá automaticamente baixar e aplicar os pesos delta ao modelo base.

Posso converter o modelo Vicuna 13-b para o formato llama.cpp/gpt4all?

Sim, o modelo Vicuna 13-b pode ser quantizado para o formato llama.cpp/gpt4all.

O modelo apenas ajusta ligeiramente os pesos existentes, sem alterar a estrutura.

Existem problemas de licenciamento ao usar o Vicuna 13-b?

A equipe do Vicuna disponibiliza os pesos como pesos delta para cumprir com a licença do modelo LLaMa.

No entanto, usar o modelo para fins comerciais ainda pode ser uma má ideia devido a possíveis complicações legais.

Conclusão

Em resumo, o Vicuna-13B surge como uma alternativa open-source promissora ao ChatGPT, trazendo novas possibilidades para o campo dos chatbots.

Com um custo de treinamento significativamente menor e um desempenho comparável ao do ChatGPT, o Vicuna-13B tem potencial para impulsionar a pesquisa e a inovação futuras.

Embora ainda tenha suas limitações, a sua natureza open-source torna-o um ponto de partida valioso para o aprimoramento contínuo dos chatbots e para o desenvolvimento de avaliações de chatbot mais rigorosas e padronizadas.

Além disso, as inovações em curso, como a integração do poder dos dados com chatbots, prometem revolucionar ainda mais o campo.

O futuro dos chatbots certamente parece brilhante e cheio de possibilidades.

*baseado nesse artigo