これはRust Advent Calendar 2017 3日目の記事です 今回は現在開発中であるRustによるGPGPUプログラミングのためのフレームワークAccelを紹介します。 GPUを使った汎用計算の技術(GPGPU)は伝統的なHigh Performance Computing (HPC)業界だけでなく、機械学習等への応用も広がり現代では欠かせない技術です。GPUの利用には大きく分けて3つの段階があります: 高速化されたライブラリを使用する(cuBLAS, cuDNN等) CPU用のコードに僅かな変更を加えてGPUで動くようにする(OpenACC) GPU用のコードを設計・開発する(CUDA) 下に行くほど開発難度が増大します。 最近はOpenACCに力を入ているようで、ごく僅かな変更で大幅な高速化が期待できると宣伝しているのをよく見ます 1。 Accel: GPGPU fram
コンピューティング環境が、従来の CPU だけで処理される時代から変化しようとしています。電力効率の問題を内在しメモリ帯域幅の制約から「CPU 自体の性能向上」が期待できない中で、GPU や DSP と言った、今まで特殊用途のプロセッサを利用し、汎用的な処理を行うソフトウェア環境が整備されつつあります。ここでは、こうした異種プロセッサを活用する「ハイブリッド・コンピューティング」のソフトウェア環境の一つである、OpenACC (Open Accelerator) の使用法に関して纏めます。OpenACCは、2008 年から PGI が取り組んだ PGI Accelerator Programming Model の考え方を踏襲し、2011 年に新しく標準規格化されたものです。OpenMP のようなディレクティブ・ベース(ソース上に指示行を挿入する形態)のプログラミング手法を採用し、GPU
Sat, Jan 2, 2016 This post presents a new method for high quality text rendering using the GPU. Unlike existing methods it provides antialiased pixel accurate results at all scales with no runtime CPU cost. Click here to see the WebGL demo Font atlases The standard way of rendering text with the GPU is to use a font atlas. Each glyph is rendered on the CPU and packed into a texture. Here’s an exam
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? TensorFlowは主に機械学習、特に多層ニューラルネットワーク(ディープラーニング)を実装するためのライブラリになりますが、その基本的な仕組みを理解するのにそうした難しい話は特に必要ありません。 本記事では、TensorFlowの仕組みを、算数程度の簡単な計算をベースに紐解いていきたいと思います。 TensorFlowの特徴 初めに、TensorFlowの特徴についてまとめておきたいと思います。 TensorFlowは、その名前の通りTensor(多次元配列、行列などに相当)のFlow(計算処理)を記述するためのツールです。その特徴
計算処理には「CPU」だけでなく「GPU」や「FPGA」、メインメモリーには「DRAM」や「3D XPoint」、ストレージには「ハードディスク」「NANDフラッシュ」「3D XPoint」――。現在、コンピュータの構成要素の選択肢が急増し始めている。 10年前であれば、業務アプリケーションを稼働するサーバーコンピュータでは計算処理にはCPUを、メインメモリーにはDRAMを、ストレージにはハードディスクを使うのが当たり前だった。むしろ他の選択肢が無かった。 しかし最近は様相が異なる。CPU、DRAM、ハードディスクという従来の定番ハードウエアの性能向上が頭打ちになり、定番以外のハードウエアを選ばなければアプリケーションの処理性能を向上するのが難しくなった。まず始まったのはストレージにおけるNANDフラッシュの採用だが、いよいよ計算処理やメインメモリーについても、定番以外の採用が不可欠になり
GPUってあるだろ? グラフィックス・プロセッシング・ユニット。 コンピュータの中で最も高速な部品はなんといってもGPUだ。 たとえばnViditaの最新SoCであるTegra K1。 CPU部は単精度で73.6ギガFLOPS(フロップス)、だがGPU部は364.8ギガFLOPSだ。 これが30万円する最新のGPUボード、GeForce GTX TITAN Zになると、なんとびっくり、8テラFLOPSだ。 これはIntelの最高級IA-64チップ、Xeon ES-2687Wの198.4ギガFLOPSを大きく上回る。 Core i7は92ギガFLOPSに過ぎない。 ちなみにかつて数億円したスーパーコンピュータ、Cray-2はわずか1.9ギガFLOPSに過ぎず、今のコンピュータがどれだけ速いか窺い知れる。JAMSTECの地球シミュレータは131テラFLOPSだが、追いつかれるのは時間の問題だろ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く