と言ってもこの点数が低いのか高いのか分かりませんので、Claude 3.5 Sonnetの点数も見ていきましょう。 Claude 3.5 Sonnetの点数 現時点で最強と名高いClaude 3.5 SonnetにもELYZA-tasks-100を解いてもらいます。 単純に問題文だけを投げる形で、temperatureは0.8にしました。 import json import anthropic from datasets import load_dataset client = anthropic.Anthropic( api_key="APIキー", ) dataset = load_dataset("elyza/ELYZA-tasks-100") test_set = dataset["test"] results = {} for i, example in enumerate(t