2024-05-01から1ヶ月間の記事一覧

2024-05-13

TensorRT-LLMでLLM推論高速化

TensorRT-LLMとは TensorRTをLLM用に多数の推論高速化技術を入れたNvidiaのオープンソースフレームワーク。 GPUメモリ使用率を半分に低減し、速度も1.5-2倍程度改善してくれる強力なフレームワーク。 www.alibabacloud.com TensorRT-LLMについてはこちらのAl…

arutema47's blog

書いたり書かなかったり。

2024-05-01から1ヶ月間の記事一覧

TensorRT-LLMでLLM推論高速化