ajout: restructuration des fichiers et modifications scraper

2026-03-28 19:13:42 +00:00 · 2026-03-01 19:39:57 +01:00
parent d62145e250
commit 0f6eb856c6
6 changed files with 34 additions and 11 deletions
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -0,0 +1,15 @@
 [project]
 name = "projet-millesima-s6"
 version = "0.1.0"
 dependencies = [
    "requests==2.32.5",
    "beautifulsoup4==4.14.3",
    "pandas==2.3.3",
 ]
 [project.optional-dependencies]
 test = ["pytest==8.4.2", "requests-mock==1.12.1"]
 [build-system]
 requires = ["setuptools"]
 build-backend = "setuptools.build_meta"
--- a/requirements.txt
+++ b/requirements.txt
@@ -1,6 +0,0 @@
 requests==2.32.5
 requests-mock==1.12.1
 beautifulsoup4==4.14.3
 pytest==8.4.2
 requests-mock==1.12.1
 pandas==2.3.3
--- a/src/main.py
+++ b/src/main.py
--- a/src/scraper.py
+++ b/src/scraper.py
@@ -174,6 +174,18 @@ class Scraper:
        # Très utile pour éviter de renvoyer toujours les mêmes handshake
        # TCP et d'avoir toujours une connexion constante avec le server
        self._session: Session = Session()
        # Crée une "fausse carte d'identité" pour éviter que le site nous
        # bloque car on serait des robots
        self._session.headers.update(
            {
                "User-Agent": 
                    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) \
                     AppleWebKit/537.36 (KHTML, like Gecko) \
                     Chrome/122.0.0.0 Safari/537.36",
                "Accept-Language": 
                    "fr-FR,fr;q=0.9,en;q=0.8",
            }
        )
        # Système de cache pour éviter de solliciter le serveur inutilement
        self._latest_request: tuple[(str, Response)] | None = None
        self._latest_soups: OrderedDict[str, BeautifulSoup] = OrderedDict[
@@ -194,7 +206,8 @@ class Scraper:
            HTTPError: Si le serveur renvoie un code d'erreur (4xx, 5xx).
        """
        target_url: str = self._url + subdir.lstrip("/")
-        response: Response = self._session.get(url=target_url, timeout=10)
+        # envoyer une requête GET sur la page si erreur, renvoie un raise
        response: Response = self._session.get(url=target_url, timeout=30)
        response.raise_for_status()
        return response
@@ -294,7 +307,7 @@ class Scraper:
        return _ScraperData(cast(dict[str, object], current_data))
-    def _geturlproductslist(self, subdir: str):
+    def _geturlproductslist(self, subdir: str) -> list[str] | None:
        """_summary_
        Args:
@@ -318,21 +331,22 @@ class Scraper:
        except (JSONDecodeError, HTTPError):
            return None
-    def getvins(self, subdir: str, filename: str):
+    def getvins(self, subdir: str, filename: str) -> None:
        """_summary_
        Args:
            subdir (str): _description_
            filename (str): _description_
        """
-        with open(filename, "a") as f:
+        with open(filename, "w") as f:
            cache: set[str] = set[str]()
            page = 0
            _ = f.write("Appellation,Robert,Robinson,Suckling,Prix\n")
            while True:
                page += 1
-                products_list = self._geturlproductslist(f"{subdir}?page={page}")
+                products_list: list[str] | None = \
                    self._geturlproductslist(f"{subdir}?page={page}")
                if not products_list:
                    break
--- a/tests/test_main.py
+++ b/tests/test_main.py
--- a/tests/test_scraper.py
+++ b/tests/test_scraper.py