Repositório para pesquisa do meu Trabalho de Conclusão de Curso.
- Verifique se a biblioteca python-poppler é uma boa maneira de extrair texto de PDFs.
- Extraia texto de PDF completo - Com todos os métodos de extração usados até agora.
- PyMuPDF obteve melhores resultados.
- Segementação dos textos por publicações.
- Utilizado o pipe que tem nos PDF para a separação de atos.
- Regex para encontrar padrões de quando se inicia um novo ato.
- Separação de atos por entidades do documento.
- PDF convertido em um JSON com os atos separados por entidades.