Vision de Claude 3.5 SONNET Comment utiliser la vision Utilisez les capacités de vision de Claude

Vision de Claude 3.5 SONNET
La famille de modèles Claude 3 est dotée de nouvelles capacités de vision qui permettent à Claude
de comprendre et d’analyser des images, ouvrant ainsi des possibilités passionnantes pour
l’interaction multimodale.
Ce guide décrit comment utiliser des images dans Claude, y compris les meilleures pratiques, les
exemples de code et les limitations à garder à l’esprit.
Comment utiliser la vision
Utilisez les capacités de vision de Claude via :
claude.ai. Téléchargez une image comme vous le feriez pour un fichier, ou faites glisser et déposez
une image directement dans la fenêtre de discussion.
•
L’établi de la console. Si vous sélectionnez un modèle qui accepte les images (modèles Claude 3
uniquement), un bouton pour ajouter des images apparaît en haut à droite de chaque bloc de
message Utilisateur.
•
Demande d’API. Voir les exemples dans ce guide.
•
Avant de télécharger
Évaluer la taille de l’image
Vous pouvez inclure plusieurs images dans une seule requête (jusqu’à 5 pour claude.ai et 20 pour les
requêtes API). Claude analysera toutes les images fournies lors de la formulation de sa réponse. Cela
peut être utile pour comparer ou contraster des images.
Pour des performances optimales, nous vous recommandons de redimensionner les images avant de
les charger si elles dépassent les limites de taille ou de jeton. Si le bord long de votre image est
supérieur à 1568 pixels, ou si votre image est supérieure à ~1 600 jetons, elle sera d’abord réduite,
en préservant le rapport hauteur/largeur, jusqu’à ce qu’elle soit dans les limites de taille.
Si votre image d’entrée est trop grande et doit être redimensionnée, cela augmentera la latence
du temps jusqu’au premier jeton, sans vous donner de performances de modèle supplémentaires.
De très petites images de moins de 200 pixels sur un bord donné peuvent dégrader les
performances.
Pour améliorer le temps jusqu’au premier jeton, nous vous recommandons de redimensionner les
images à 1,15 mégapixels maximum (et à moins de 1568 pixels dans les deux dimensions).
Voici un tableau des tailles d’image maximales acceptées par notre API qui ne seront pas
redimensionnées pour les formats d’image courants. Avec le modèle Claude 3.5 Sonnet, ces images
utilisent environ 1 600 jetons et environ 4,80 $/1K image.
Format d’image Taille de l’image
1:1 1092 x 1092 px
3:4 951 x 1268 px
2:3 896 x 1344 px
9:16 819 x 1456 px
1:2 784 x 1568 px
Calculer les coûts d’image
Vision de Claude 3.5 SONNET
mercredi 3 juillet 2024 07:24

Chaque image que vous incluez dans une demande adressée à Claude compte dans votre utilisation
de jeton. Pour calculer le coût approximatif, multipliez le nombre approximatif de jetons d’image par
le prix par jeton du modèle que vous utilisez.
Si votre image n’a pas besoin d’être redimensionnée, vous pouvez estimer le nombre de jetons
utilisés grâce à cet algorithme : tokens = (width px * height px)/750
Voici des exemples de tokenisation et de coûts approximatifs pour différentes tailles d’image dans
les contraintes de taille de notre API basées sur le prix par jeton Claude 3.5 Sonnet de 3 $ par million
de jetons d’entrée :
Taille de l’image # de jetons Coût / image Coût / Images 1K
200x200 px(0,04 mégapixels) ~54 ~$0.00016 ~$0.16
1000x1000 px (1 mégapixel) ~1334 ~$0.004 ~$4.00
1092x1092 px(1,19 mégapixels) ~1590 ~$0.0048 ~$4.80
Garantir la qualité de l’image
Lorsque vous fournissez des images à Claude, gardez à l’esprit les points suivants pour de meilleurs
résultats :
Format d’image : utilisez un format d’image pris en charge : JPEG, PNG, GIF ou WebP.
•
Clarté de l’image : assurez-vous que les images sont claires et pas trop floues ou pixélisées.
•
Texte : si l’image contient du texte important, assurez-vous qu’il est lisible et qu’il n’est pas trop
petit. Évitez de recadrer le contexte visuel clé juste pour agrandir le texte.
•
Exemples d’invites
De nombreuses techniques d’incitation qui fonctionnent bien pour les interactions textuelles avec
Claude peuvent également être appliquées aux invites basées sur l’image.
Ces exemples illustrent les structures d’invites des meilleures pratiques impliquant des images.
Tout comme pour le placement de requêtes de documents, Claude fonctionne mieux lorsque les
images précèdent le texte. Les images placées après le texte ou interpolées avec du texte
fonctionneront toujours bien, mais si votre cas d’utilisation le permet, nous vous recommandons
une structure image-texte-texte.
À propos des exemples d’invite
Ces exemples d’invite utilisent le SDK Python d’Anthropic et récupèrent des images de Wikipédia à
l’aide de la bibliothèque. Vous pouvez utiliser n’importe quelle source d’image.httpx
Les exemples d’invites utilisent ces variables.
Python
importbase64
importhttpx
image1_url
="https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"image1
_media_type ="image/jpeg"image1_data =base64.b64encode(httpx.get(image1_url).content).decode("utf-8")
image2_url
="https://upload.wikimedia.org/wikipedia/commons/b/b5/Iridescent.green.sweat.bee1.jpg"image2
_media_type ="image/jpeg"image2_data =base64.b64encode(httpx.get(image2_url).content).decode("utf-8")
Pour utiliser des images lors d’une requête d’API, vous pouvez fournir des images à Claude en tant
qu’image encodée en base64 dans les blocs de contenu. Voici un exemple simple en Python
montrant comment inclure une image encodée en base64 dans une requête d’API Messages :image
Python
importanthropic
client =anthropic.Anthropic()message =client.messages.create(model="claude-3-5-
sonnet-20240620",max_tokens=
1024,messages=[{"role":"user","content":[{"type":"image","source":{"type":"base64","media_type":image1
_media_type,"data":image1_data,},},{"type":"text","text":"Describe this image."}],}],)print(message)
Consultez Exemples d’API Messages pour plus de détails sur le code et les paramètres.
Exemple : Une image

Exemple : plusieurs images
Exemple : plusieurs images avec une invite système
Exemple : Quatre images sur deux tours de conversation
Limitations
Bien que les capacités de compréhension d’images de Claude soient à la pointe de la technologie, il y
a certaines limites à prendre en compte :
Identification des personnes : Claude ne peut pas être utilisé pour identifier (c’est-à-dire nommer)
des personnes dans des images et refusera de le faire.
•
Précision : Claude peut avoir des hallucinations ou faire des erreurs lors de l’interprétation d’images
de mauvaise qualité, pivotées ou très petites de moins de 200 pixels.
•
Raisonnement spatial : Les capacités de raisonnement spatial de Claude sont limitées. Il peut avoir
du mal à effectuer des tâches nécessitant une localisation ou des mises en page précises, comme la
lecture d’un cadran d’horloge analogique ou la description des positions exactes des pièces
d’échecs.
•
Comptage : Claude peut donner un nombre approximatif d’objets dans une image, mais n’est pas
toujours précis avec précision, en particulier avec un grand nombre de petits objets.
•
Images générées par l’IA : Claude ne sait pas si une image est générée par l’IA et peut être incorrecte
si on lui demande. Ne vous y fiez pas pour détecter des images fausses ou synthétiques.
•
Contenu inapproprié : Claude ne traitera pas les images inappropriées ou explicites qui enfreignent
notre politique d’utilisation acceptable.
•
Applications de soins de santé : Bien que Claude puisse analyser des images médicales générales, il
n’est pas conçu pour interpréter des examens diagnostiques complexes tels que des
tomodensitogrammes ou des IRM. Les résultats de Claude ne doivent pas être considérés comme un
substitut à un avis ou à un diagnostic médical professionnel.
•
Examinez et vérifiez toujours attentivement les interprétations d’images de Claude, en particulier
pour les cas d’utilisation à enjeux élevés. N’utilisez pas Claude pour des tâches nécessitant une
précision parfaite ou une analyse d’images sensibles sans surveillance humaine.
FAQ
Quels types de fichiers image Claude prend-il en charge ?
Claude peut-il lire les URL des images ?
Y a-t-il une limite à la taille du fichier image que je peux télécharger ?
Combien d’images puis-je inclure dans une demande ?
Claude lit-il les métadonnées des images ?
Puis-je supprimer les images que j’ai téléchargées ?
Où puis-je trouver des détails sur la confidentialité des données pour les téléchargements
d’images ?
Et si l’interprétation de l’image de Claude semble fausse ?
Claude peut-il générer ou modifier des images ?
Plongez plus profondément dans la vision
Prêt à commencer à créer avec des images avec Claude ? Voici quelques ressources utiles :
Livre de recettes multimodal : ce livre de recettes contient des conseils sur la prise en main des
images et des techniques de bonnes pratiques pour garantir des performances de la plus haute
qualité avec les images. Découvrez comment vous pouvez inviter efficacement Claude avec des
images à effectuer des tâches telles que l’interprétation et l’analyse de graphiques ou l’extraction de
contenu de formulaires.
•
Référence de l’API : consultez notre documentation sur l’API Messages, y compris des
exemples d’appels d’API impliquant des images.
•
Si vous avez d’autres questions, n’hésitez pas à contacter notre équipe d’assistance. Vous pouvez
également rejoindre notre communauté de développeurs pour entrer en contact avec d’autres

créateurs et obtenir l’aide d’experts Anthropic.
À partir de l’adresse <https://docs.anthropic.com/en/docs/build-with-claude/vision>

Vision de Claude 3.5 SONNET Comment utiliser la vision Utilisez les capacités de vision de Claude

Contenu connexe

Vision de Claude 3.5 SONNET Comment utiliser la vision Utilisez les capacités de vision de Claude