Quoi que tu donnes à un modèle de langage, il le voit comme un flux de tokens. Un PDF, un fichier Word ou une page web ne sont pas ce flux — c’est un conteneur que le modèle ne peut pas ouvrir, ou un tas de balisage qu’il doit ignorer. La tâche de transformer ces fichiers en texte propre et structuré t’incombe, et le format que tu choisis change à la fois la facture et la qualité de la réponse. Markdown est le format sur lequel la plupart des équipes s’accordent, pour quelques raisons concrètes.
Les modèles lisent du texte, pas des mises en page
Un PDF décrit où l’encre se pose sur une page. Un .docx est un zip de XML plein de données de style et de révision. Une page HTML est enveloppée de navigation, de scripts et de styles en ligne. Rien de tout cela n’est le contenu dont un modèle a besoin, et tout cela gêne. Convertis en Markdown et tu gardes la partie qui porte le sens — titres, paragraphes, listes, tableaux — sous forme de texte brut que le modèle analyse nativement.
La taxe en tokens du mauvais format
Les fenêtres de contexte sont finies, et la plupart des API facturent au token. Chaque chevron, style en ligne et saut de ligne parasite que tu colles, ce sont des tokens dépensés en bruit plutôt qu’en signal. Le même paragraphe peut coûter très différemment selon la façon dont il est emballé :
HTML: <p class="lead">Le <strong>délai de remboursement</strong> est de 30 jours.</p>
Markdown: Le **délai de remboursement** est de 30 jours.Multiplie cela sur un long document et la différence, c’est de l’argent réel et un budget de contexte réel. Markdown porte la même emphase et le même sens avec une fraction de la syntaxe, donc une plus grande part de la fenêtre contient ton vrai matériau — et le modèle dépense son attention sur le contenu, pas sur les balises.
La structure, c’est ce qui améliore les réponses
Moins de tokens, c’est l’histoire du coût. L’histoire de la qualité, c’est la structure. Quand un titre est un vrai titre et une liste une vraie liste, le modèle peut distinguer les sections, suivre la hiérarchie et citer le bon passage. Aplatis un document en un seul bloc indifférencié et il perd la carte. Markdown préserve cette carte de la façon la plus simple possible, ce qui est exactement pourquoi les pipelines de récupération (RAG), les outils d’agents et les jeux de données de fine-tuning s’y normalisent.
Les tableaux sont le gain le plus clair
Les tableurs et les tableaux de données sont là où le format compte le plus. Colle des cellules brutes et un modèle perd vite le fil de quelle valeur est sous quelle colonne. Un tableau Markdown rend la correspondance en-tête-valeur explicite sur chaque ligne, donc le modèle peut réellement raisonner sur les chiffres. C’est pourquoi convertir un tableur en tableau Markdown vaut mieux que remettre une capture d’écran ou un mur de valeurs séparées par des virgules.
Un flux de travail simple
- Convertis une fois. Transforme le fichier source en Markdown avec l’outil correspondant ci-dessous. Garde le
.md. - Parcours le résultat. Surtout pour les PDF, où les titres sont déduits de la taille de police — une lecture rapide attrape tout ce que la mise en page a trompé.
- Réutilise-le partout. Le même Markdown s’insère dans un prompt, un index vectoriel ou un jeu d’entraînement sans retouche.
Chaque format a son propre convertisseur, et chacun s’exécute entièrement dans ton navigateur :
- PDF en Markdown — texte et titres déduits d’un PDF.
- Word (DOCX) en Markdown — titres, listes et tableaux d’un fichier Word.
- Excel (XLSX) en Markdown — chaque feuille en tableau Markdown.
- PowerPoint (PPTX) en Markdown — titres de diapositive, puces et notes de l’intervenant.
- HTML en Markdown — une page ou un extrait, sans l’habillage.
- EPUB en Markdown — un livre numérique entier dans l’ordre de lecture.
- CSV en tableau Markdown — un tableau propre à partir de données séparées par des virgules ou des tabulations.
Garde-le sur ton appareil
Les documents qui valent la peine d’être donnés à une IA sont souvent ceux que tu veux le moins téléverser : contrats, finances, présentations internes. Il n’y a aucun compromis à faire ici. Chaque convertisseur ci-dessus traite le fichier en local dans ton navigateur et n’envoie rien à un serveur, donc tu obtiens du Markdown propre sans confier tes données à un tiers. Tout le traitement se passe sur ta propre machine, où tu peux le vérifier toi-même.