arruma o processo de busca textual nos diarios

2025-03-14 17:36:14 +01:00
parent 8d1f6feeaf
commit f2e5cd73b7
15 changed files with 650 additions and 645 deletions
--- a/diarios/models.py
+++ b/diarios/models.py
@ -1,7 +1,12 @@
+import requests
+import os
+from urllib.parse import urlparse
+from django.core.files.base import ContentFile
 from django.db import models
 import PyPDF2
 import json
 from django.core.serializers.json import DjangoJSONEncoder
+from babel.dates import format_date


 class PDFDocument(models.Model):
@ -34,6 +39,7 @@ class PDFDocument(models.Model):

        super().save(*args, **kwargs)

+
 class TipoDiarioOficial(models.Model):
    nome = models.CharField(max_length=100, unique=True)

@ -57,24 +63,51 @@ class DiarioOficial(models.Model):
    numero = models.CharField(max_length=20, unique=True)
    link = models.URLField(blank=True, null=True, unique=True)
    page_content = models.JSONField(encoder=DjangoJSONEncoder, blank=True, null=True)
-    
+
    def save(self, *args, **kwargs):
-        if self.file:
-            pdf = PyPDF2.PdfReader(self.file)
-            pages_data = []
+        # Se houver um link, baixa o PDF e extrai o conteúdo
+        if self.link and not self.arquivo:
+            try:
+                # Faz o download do PDF
+                response = requests.get(self.link)
+                response.raise_for_status()  # Verifica se o download foi bem-sucedido

-            for i, pagina in enumerate(pdf.pages):
-                page_text = pagina.extract_text()
-                pages_data.append(
-                    {
-                        "number": i + 1,
-                        "content": page_text,
-                    }
+                # Define o nome do arquivo a partir do link
+                parsed_url = urlparse(self.link)
+                file_name = (
+                    os.path.basename(parsed_url.path) or f"diario_{self.numero}.pdf"
                )
-            self.page_content = json.dumps(pages_data)

+                # Salva o arquivo no campo `arquivo`
+                self.arquivo.save(file_name, ContentFile(response.content), save=False)
+
+                # Extrai o conteúdo do PDF
+                pdf = PyPDF2.PdfReader(self.arquivo)
+                pages_data = []
+
+                for i, pagina in enumerate(pdf.pages):
+                    page_text = pagina.extract_text()
+                    if page_text:  # Ignora páginas sem conteúdo
+                        pages_data.append(
+                            {
+                                "number": i + 1,
+                                "content": page_text,
+                            }
+                        )
+
+                # Salva o conteúdo das páginas no campo `page_content`
+                self.page_content = pages_data
+
+            except requests.RequestException as e:
+                print(f"Erro ao baixar o PDF: {e}")
+            except PyPDF2.PdfReadError as e:
+                print(f"Erro ao ler o PDF: {e}")
+            except Exception as e:
+                print(f"Erro inesperado: {e}")
+
+        # Salva o modelo
        super().save(*args, **kwargs)
-    
+
    @property
    def data_formatada(self):
        return format_date(self.data, format="long", locale="pt_BR")
@ -89,4 +122,3 @@ class DiarioOficial(models.Model):
    class Meta:
        constraints = [models.UniqueConstraint(fields=["numero"], name="unique_numero")]
        verbose_name_plural = "Diários Oficiais"
-