「Gemini 2.0」の「3D Spatial Understanding」を試したのでまとめました。 ・Pointing and 3D Spatial Understanding with Gemini 2.0 (Experimental) 1. 3D Spatial Understanding「3D Spatial Understanding」(3次元空間認識) は、2D画像や動画から、現実世界の3次元空間を理解する能力や技術のことです。 【注意】3Dバウンディングボックスは実験段階です。精度を高めるには 2Dバウンディングボックスを使用してください。 2. Gemini API の準備「Google Colab」で Gemini API を準備する手順は、次のとおりです。 (1) パッケージのインストール。 # パッケージのインストール !pip install -U -q goo