Transcrição e Análise de Vídeos

← Voltar

Sistema de Transcrição e Análise de Vídeos com Inteligência Artificial (VideoSummaryAI)

Este projeto consiste em uma aplicação completa — backend em FastAPI e frontend em React + Vite — capaz de baixar vídeos do YouTube, transcrever automaticamente o áudio, analisar o conteúdo e gerar explicações detalhadas utilizando modelos da Groq como whisper-large-v3-turbo e groq/compound. A arquitetura combina Python, APIs de IA e uma interface web moderna, permitindo transformar vídeos em texto analisado de forma totalmente automatizada.

Todo o processamento é feito em ambiente Linux utilizando venv para isolamento. O objetivo é facilitar o consumo de conteúdos longos, permitindo obter uma transcrição precisa, explicações estruturadas e facilidade de estudo.

Principais funcionalidades do sistema

1. Backend (FastAPI) integrado à IA

• API REST construída com FastAPI e validação de dados com Pydantic.
• Endpoint /processar recebe a URL, processa o vídeo e retorna JSON com resultado.
• Middleware CORS para comunicação com o frontend.
• Tratamento de erros, retornos em vez de prints e pipeline de IA otimizado.

2. Frontend (React + Vite)

• Interface moderna e responsiva usando React.
• Formulário simples onde o usuário envia a URL do vídeo.
• Requisições com fetch() ao backend.
• Exibição do texto gerado pela IA dentro do site, sem uso do terminal.

3. Download automático de vídeos (YouTube)

• Implementado com pytubefix.
• Obtém automaticamente a melhor qualidade disponível.
• Verifica e organiza arquivos MP4 antes da transcrição.

4. Transcrição com Whisper-large-v3-turbo

• Envio do arquivo MP4 diretamente ao endpoint da Groq.
• Modelo extremamente rápido e preciso.
• Extrai texto limpo do formato verbose_json.

5. Explicação inteligente com groq/compound

• O texto transcrito é enviado ao modelo de raciocínio avançado.
• Geração de explicação clara e estruturada.
• Base preparada para futuros recursos como resumos, análise técnica ou tradução.

Arquitetura da aplicação

1. Integração com APIs da Groq

• Uso de variável de ambiente GROQ_API_KEY no Linux.
• Cliente Groq configurado em função dedicada.
• Separação de transcrição e análise para modularidade.

2. Backend Python modular

• Funções como:
– baixa_Video()
– procura_mp4()
– transcreve_Audio()
– explica_Audio()
– baixa_transcreve()

• Código organizado para manutenção e expansão.
• Tratamento de erros como ausência de arquivos MP4.

3. Integração completa com o frontend

• Problema resolvido: prints no terminal substituídos por return.
• Dados enviados para o React e exibidos em tela.
• Comunicação via JSON limpa e padronizada.

Etapas de desenvolvimento

• Configuração inicial do ambiente e bibliotecas.
• Criação do backend FastAPI e do frontend React.
• Pipeline completo: download → transcrição → análise.
• Testes com vídeos longos, curtos e em diferentes resoluções.
• Correções de CORS, problemas de chave API e rotas.

Resultados

O sistema final é capaz de:
• Baixar automaticamente vídeos do YouTube.
• Transcrever o áudio com alta precisão.
• Gerar explicações automáticas e detalhadas.
• Exibir tudo dentro do site sem abrir terminal.
• Servir de base para:
– chatbots sobre vídeos
– sumarização de aulas
– análise educacional
– criação de legendas
– ferramentas de estudo

Tecnologias utilizadas

• Python
• FastAPI
• React + Vite
• Whisper-large-v3-turbo
• Groq (groq/compound)
• pytubefix
• glob
• venv
• Linux

Competências desenvolvidas

• Arquitetura cliente-servidor (FastAPI + React).
• Integração com APIs de IA.
• Automação e processamento de áudio.
• Modularização de sistemas Python.
• Versionamento com Git (develop → main).
• Correção de erros e depuração.
• Prompt engineering aplicado a análise de vídeos.

Link para o código no GitHub

CV EMAIL GITHUB LINKEDIN DISCORD INSTAGRAM