Documentos da CPI da Pandemia
A CPI da Pandemia recebeu milhares de documentos públicos, todos disponibilizados no site do Senado Federal.
Mas como clicar um por um leva tempo, automatizamos o download e descompactação de todos esses arquivos, facilitando assim não só o acesso, mas também buscas nos arquivos com ferramentas como Evernote, Spotlight, etc.
Avisos importantes
Nome dos arquivos
Para sincronizar esses arquivos na nuvem e evitar erros no sistema de arquivos, todos os nomes de arquivos foram normalizados retirando acentuação e caracteres especiais.
Por exemplo, um arquivo chamado Ofício.text é renomeado para Oficio.txt.
Erros
Algumas links para baixar os documentos públicos não funcionam. Mesmo com estratégias de repetir a tentativa em caso de erro, pode ser que nem todos os arquivos listados estejam, de fato, disponível.
Links que não puderem ser baixados são listados no arquivo erros.txt.
Só quero baixar os arquivos
O resultado está disponibilizado nesse diretório no Dropbox, e você pode baixar tudo com um clique.
Vou tentar manter esse diretório atualizado executando esse programa cerca de 3x semana.
Sou hacker e quero mais
Você também pode baixar tudo direto do Senado Federal, instalando esse pacote e digitando apenas um comando.
Utilização com docker
Requer Docker:
$ docker build -t docs-cpi-pandemia .
$ docker run -it -v $PWD/data:/data docs-cpi-pandemia
Os arquivos serão baixados em um diretório data/ dentro da pasta onde você executou esse comando.
Instalação sem docker
Requer Python 3.9 e Poetry:
$ poetry install
Uso
$ poetry run python -m cpi_pandemia
Existem opções que podem ser configuradas, as instruções e valores padrões podem ser vistos adicionando --help ao final do comando.