Intégration de beautifulsoup et selenium pour récupérer le contenu d'un événement Facebook

2023-10-18 11:53:07 +02:00
parent a21b9d030e
commit d69ed7f3d8
5 changed files with 110 additions and 1 deletions
--- a/3
+++ b/3
@@ -53,6 +53,9 @@ migrate:
 build-dev:
 	DOCKER_BUILDKIT=1 COMPOSE_DOCKER_CLI_BUILD=1 docker-compose -f docker-compose.yml up --build -d
 build-dev-log:
 	DOCKER_BUILDKIT=1 COMPOSE_DOCKER_CLI_BUILD=1 docker-compose -f docker-compose.yml up --build
 build-prod:
 	DOCKER_BUILDKIT=1 COMPOSE_DOCKER_CLI_BUILD=1 docker-compose -f docker-compose.prod.yml up --build -d
--- a/deployment/Dockerfile
+++ b/deployment/Dockerfile
@@ -5,7 +5,7 @@ WORKDIR /usr/src/app
 RUN --mount=type=cache,target=/var/cache/apt \
 	apt-get update && \
-    apt-get install --no-install-recommends -y build-essential libpq-dev gettext \
+    apt-get install --no-install-recommends -y build-essential libpq-dev gettext chromium-driver \
    && rm -rf /var/lib/apt/lists/*
--- a/src/agenda_culturel/celery.py
+++ b/src/agenda_culturel/celery.py
@@ -4,6 +4,7 @@ from celery import Celery
 from celery.schedules import crontab
 from celery.utils.log import get_task_logger
 from .extractors import ExtractorAllURLs 
 # Set the default Django settings module for the 'celery' program.
 APP_ENV = os.getenv("APP_ENV", "dev")
@@ -29,6 +30,7 @@ def create_event_from_submission(self, url):
    logger.info(f"{url=}")
    try:
        logger.info("About to create event from submission")
        events = ExtractorAllURLs.extract(url)
        # TODO
    except BadHeaderError:
        logger.info("BadHeaderError")
--- a/src/agenda_culturel/extractors.py
+++ b/src/agenda_culturel/extractors.py
@@ -0,0 +1,102 @@
 from abc import ABC, abstractmethod
 #from .models import Event
 from selenium import webdriver
 from selenium.webdriver.chrome.service import Service
 from selenium.webdriver.chrome.options import Options
 from bs4 import BeautifulSoup
 import json
 from celery.utils.log import get_task_logger
 logger = get_task_logger(__name__)
 class Extractor:
    @abstractmethod
    def extract(url):
        pass
    def download(url):
        try:
            options = Options()
            options.add_argument("--headless=new")
            options.add_argument("--disable-dev-shm-usage")
            options.add_argument("--no-sandbox")
            service = Service("/usr/bin/chromedriver")
            driver = webdriver.Chrome(service=service, options=options)
            driver.get(url)
            doc = driver.page_source
            driver.quit()
            return doc
        except Exception as e:
            logger.error(e)
            return None
 class ExtractorFacebook(Extractor):
    class FacebookEvent:
        name = "event"
        keys = ["start_time_formatted", 'start_timestamp', 'is_past', "name", "price_info", "cover_media_renderer", "event_creator", "id", "day_time_sentence", "event_place", "comet_neighboring_siblings"]
        def __init__(self, event):
            self.data = event
        def __str__(self):
            return self.data["name"]
        def find_event_in_array(array):
            if isinstance(array, dict):
                if len(ExtractorFacebook.FacebookEvent.keys) == len([k for k in ExtractorFacebook.FacebookEvent.keys if k in array]):
                    return ExtractorFacebook.FacebookEvent(array)
                else:
                    for k in array:
                        v = ExtractorFacebook.FacebookEvent.find_event_in_array(array[k])
                        if v != None:
                            return v
            elif isinstance(array, list):
                for e in array:
                        v = ExtractorFacebook.FacebookEvent.find_event_in_array(e)
                        if v != None:
                            return v
            return None
    def extract(url):
        txt = Extractor.download(url)
        if txt is None:
            logger.error("Cannot download " + url)
            return None
        else:
            soup = BeautifulSoup(txt, "html.parser")
            for json_script in soup.find_all('script', type="application/json"):
                json_txt = json_script.get_text()
                json_struct = json.loads(json_txt)
                fevent = ExtractorFacebook.FacebookEvent.find_event_in_array(json_struct)
                if fevent != None:
                    logger.info(str(fevent))
                    result = "TODO"
                    return result
        return None
 class ExtractorAllURLs:
    def extract(url):
        logger.info("Run extraction")
        result = ExtractorFacebook.extract(url)
        if result is None:
            logger.info("Not a Facebook link")
            # add here other extrators
            pass
        return result
--- a/src/requirements.txt
+++ b/src/requirements.txt
@@ -20,3 +20,5 @@ vine==5.0.0
 wcwidth==0.2.6
 redis==4.5.5
 whitenoise==6.4.0
 selenium==4.14.0
 BeautifulSoup4==4.12.2