Este projeto consiste em uma aplicação completa — backend em FastAPI e frontend em React + Vite — capaz de baixar vídeos do YouTube, transcrever automaticamente o áudio, analisar o conteúdo e gerar explicações detalhadas utilizando modelos da Groq como whisper-large-v3-turbo e groq/compound. A arquitetura combina Python, APIs de IA e uma interface web moderna, permitindo transformar vídeos em texto analisado de forma totalmente automatizada.
Todo o processamento é feito em ambiente Linux utilizando venv para isolamento. O objetivo é facilitar o consumo de conteúdos longos, permitindo obter uma transcrição precisa, explicações estruturadas e facilidade de estudo.
• API REST construída com FastAPI e validação de dados com Pydantic.
• Endpoint /processar recebe a URL, processa o vídeo e retorna JSON com resultado.
• Middleware CORS para comunicação com o frontend.
• Tratamento de erros, retornos em vez de prints e pipeline de IA otimizado.
• Interface moderna e responsiva usando React.
• Formulário simples onde o usuário envia a URL do vídeo.
• Requisições com fetch() ao backend.
• Exibição do texto gerado pela IA dentro do site, sem uso do terminal.
• Implementado com pytubefix.
• Obtém automaticamente a melhor qualidade disponível.
• Verifica e organiza arquivos MP4 antes da transcrição.
• Envio do arquivo MP4 diretamente ao endpoint da Groq.
• Modelo extremamente rápido e preciso.
• Extrai texto limpo do formato verbose_json.
• O texto transcrito é enviado ao modelo de raciocínio avançado.
• Geração de explicação clara e estruturada.
• Base preparada para futuros recursos como resumos, análise técnica ou tradução.
• Uso de variável de ambiente GROQ_API_KEY no Linux.
• Cliente Groq configurado em função dedicada.
• Separação de transcrição e análise para modularidade.
• Funções como:
– baixa_Video()
– procura_mp4()
– transcreve_Audio()
– explica_Audio()
– baixa_transcreve()
• Código organizado para manutenção e expansão.
• Tratamento de erros como ausência de arquivos MP4.
• Problema resolvido: prints no terminal substituídos por return.
• Dados enviados para o React e exibidos em tela.
• Comunicação via JSON limpa e padronizada.
• Configuração inicial do ambiente e bibliotecas.
• Criação do backend FastAPI e do frontend React.
• Pipeline completo: download → transcrição → análise.
• Testes com vídeos longos, curtos e em diferentes resoluções.
• Correções de CORS, problemas de chave API e rotas.
O sistema final é capaz de:
• Baixar automaticamente vídeos do YouTube.
• Transcrever o áudio com alta precisão.
• Gerar explicações automáticas e detalhadas.
• Exibir tudo dentro do site sem abrir terminal.
• Servir de base para:
– chatbots sobre vídeos
– sumarização de aulas
– análise educacional
– criação de legendas
– ferramentas de estudo
• Python
• FastAPI
• React + Vite
• Whisper-large-v3-turbo
• Groq (groq/compound)
• pytubefix
• glob
• venv
• Linux
• Arquitetura cliente-servidor (FastAPI + React).
• Integração com APIs de IA.
• Automação e processamento de áudio.
• Modularização de sistemas Python.
• Versionamento com Git (develop → main).
• Correção de erros e depuração.
• Prompt engineering aplicado a análise de vídeos.