Blog

19 juillet 2026 · 7 min

Anatomie d'un modèle : ce que contient un fichier de poids

Un LLM open-source, c'est un dossier de sept fichiers. Anatomie du safetensors de Gemma 4 12B qui tourne en production : poids, tenseurs, architecture, embeddings. Ce que le fichier contient, et ce qu'il ne contient pas.

IA LLM

Lire →

12 juillet 2026 · 7 min

Les dimensions d'un LLM : embedding, couches, attention

"Dimension" désigne au moins quatre choses différentes dans un LLM. Embedding, vocabulaire, couches, paramètres : ce que chaque chiffre de Gemma 4 12B mesure vraiment, et ce qui se passe à l'intérieur d'une couche.

IA LLM

Lire →

5 juillet 2026 · 8 min

Pourquoi l'inférence LLM est memory-bound (et ce que ça change pour le sizing)

Le débit d'un LLM en génération n'est pas limité par la puissance de calcul du GPU mais par sa bande passante mémoire. La démonstration chiffrée sur Gemma 4 12B, et pourquoi ça dicte le choix de la carte.

IA LLM vLLM

Lire →

9 juin 2026 · 9 min

Déployer un LLM on-premise : les décisions d'architecture qui comptent

Entre "faire tourner Ollama en local" et déployer une stack IA fiable en production, il y a une série de décisions d'architecture. Moteur d'inférence, interface, automation, sizing : ce qui compte vraiment.

IA Kubernetes vLLM

Lire →

9 décembre 2025 · 8 min

Comment on a simplifié notre stack IA avec LiteLLM chez Evaneos

Comment Evaneos a remplacé des clés API éparpillées entre OpenAI, Anthropic, Gemini et Deepgram par un proxy LiteLLM unique déployé sur Kubernetes avec FluxCD.

IA Kubernetes

Lire →