20200704 bsp net

第３回全日本CV勉強会 CVPR2020読み会（前編）
BSP-Net: Generating Compact Meshes via
Binary Space Partitioning
2020/07/04 takmin

自己紹介
2
株式会社ビジョン＆ITラボ代表取締役
皆川卓也（みながわたくや）
「コンピュータビジョン勉強会＠関東」主催
博士（工学）
略歴：
1999-2003年
日本HP（後にアジレント・テクノロジーへ分社）にて、ITエンジニアとしてシステム構築、プリ
セールス、プロジェクトマネジメント、サポート等の業務に従事
2004-2009年
コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事
2007-2010年
慶應義塾大学大学院後期博士課程にて、コンピュータビジョンを専攻
単位取得退学後、博士号取得（2014年）
2009年-現在
フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事（2018年法人化）
http://visitlab.jp

ビジョン
技術の町医者
AIビジネスについて、気軽に相談できる

事業内容
1. Ｒ＆Ｄコンサルティング
2. 受託研究/開発
3. 開発マネジメント
4. 開発コンサルティング
5. ビジネス化コンサルティング
4

深層学習 (Deep Learning)
5
深層学習についてのコンサルティングや開発支援などを
行います。
 画像識別
 物体検出
 領域分割
 人物姿勢推定
 画像変換
 画像生成(GAN)
 etc

Virtual Reality/Augmented Reality
6
御社がVirtual RealityやAugmented Realityを用いたビジネ
スを行う上で必要な、総合的な技術コンサルティングや開
発/プロダクトを提供します。
 特定物体認識
 Visual SLAM
 三次元スキャン
 Face Tracking

ナンバープレート認識：
License Plate Recognizer
 画像や動画からナンバープレートを読み取ります
入力画像/動画文字＋座標
License Plate
Recognizer
練馬444
ま 1564
• Web APIまたはSDKで提供可能
• SDK
• LinuxまたはWindows
• C++またはPython
• アルファベット分類番号および図柄入りナンバープレートにも対応
• GPU不要でロバストかつ高速な認識

詳解する論文
8
BSP-Net: Generating Compact
Meshes via Binary Space
Partitioning
 Chen, Z.,Tagliasacchi,A., & Zhang, H.
Best Student Paper!

3D Shapeの表現
9
Figure from “Occupancy Networks: Learning 3D Reconstruction in Function Space”
Voxel Point Cloud Mesh
+Simple
-Cubic Memory
-Manhattan world
+Fast and Easy
-No connectivity
-Lossy Postprocessing
+Natural
-Require Template
(topology)
-Self-intersections

3D Shapeの表現
10
Voxel Point Cloud Mesh Implicit Function
+Infinite Resolution
+Arbitrary Topologies
+Watertight Meshes
Figure from “Occupancy Networks: Learning 3D Reconstruction in Function Space”
+Simple
-Cubic Memory
-Manhattan world
+Fast and Easy
-No connectivity
-Lossy Postprocessing
+Natural
-Require Template
(topology)
-Self-intersections

3D Shapeの表現
11
陰関数(Implicit Function)をDeep Learningで表現
（いずれもCVPR2019）
 IM-NET
 Learning Implicit Fields for Generative Shape Modeling
 OccNET
 Occupancy Networks: Learning 3D Reconstruction in
Function Space
 DeepSDF
 DeepSDF: Learning Continuous Signed Distance
Functions for Shape Representation
https://www.slideshare.net/takmin/20190706cvpr20193dshaperepresentation-153989245

3D Shapeの表現
12
 3Dをレンダリングするためには、メッシュ表現が使われる
 陰関数を用いた3Dの表現では、Voxel表現に変換された後、
Marching Cube法などによってメッシュへ変換する必要がある。
 そこで、DNNを用いて直接メッシュを用いた3D表現を行う手
法を提案

BSP-Netによるメッシュ表現
13
 平面の組み合わせで凸多面体を表現

14
超平面：𝑎𝑥 + 𝑏𝑦 + 𝑐𝑧 + 𝑑 = 0
 特徴量𝐟からMLPで𝑝個の平面のパラメータ𝑷 𝑝×4を推定

15
 𝑐個の凸多面体𝑪を、平面𝑷の組み合わせを表す二値行列𝑻 𝑝×𝑐

16
 凸多面体𝑪の集合として3D Shapeを表現

ネットワーク構造
18
学習したいパラメータ

19
ResNet（画像）
3D CNN (Voxel)
PointNet (Point Cloud)
etc

20
𝑝個の平面

21
𝑛個の三次元斉次座標
𝐱の各平面への符号付
き距離𝑫

22
二値行列𝐓で𝑐個の凸
多面体への距離𝑪を計
算

23
凸多面体への距離 𝑪の、
𝑾による重み付き和で
Shape 𝑺+
を表現
（Stage-1）

24
凸多面体への距離𝑪の
最小値でShape 𝑺∗
を表
現（Stage-2）

Layer2: 各凸多面体への距離算出
25

26
𝐶𝑗
∗
(𝐱) = max
𝑖
𝐷𝑖 𝑇𝑖𝑗
𝐱

27
𝐶𝑗
∗
(𝐱) = max
𝑖
𝐱
𝑇00
𝑇10
𝑇20
𝐷0
𝐷1
𝐷2
𝐶0
∗
(𝐱) = 𝐷1
*𝐷0, 𝐷2は負

28
𝐶𝑗
∗
(𝐱) = max
𝑖
𝐱
𝑇31 𝑇41
𝑇51
𝑇61
𝐷4
𝐷5
𝐷6
𝐶1
∗
(𝐱) = 𝐷3
*𝐷4, 𝐷5, 𝐷6は負
𝐷3

29
𝐶𝑗
∗
(𝐱) = max
𝑖
𝐱

30
𝐶𝑗
∗
(𝐱) = max
𝑖
𝑇00
𝑇10
𝑇20
𝐷0
𝐷1
𝐷2
𝐶0
∗
(𝐱) = 𝐷1
*𝐷0, 𝐷1, 𝐷2は負
𝐱

31
𝐶𝑗
∗
(𝐱) = max
𝑖
𝑇31 𝑇41
𝑇51
𝑇61
𝐷4
𝐷5
𝐷6
𝐶1
∗
(𝐱) = 𝐷3
*𝐷4, 𝐷5 は負
𝐷3
𝐱

Layer2: 学習のためmax-poolingの緩和
32
 𝐶𝑗
∗
(𝐱) = max
𝑖
𝐷𝑖 𝑇𝑖𝑗 (1)
 𝐱が凸多面体の外の場合は正、内の場合は負
 学習時、勾配がmaxを取った超平面にしか伝播されない

Layer2: 学習のためmax-poolingの緩和
33
 𝐶𝑗
∗
(𝐱) = max
𝑖
𝐷𝑖 𝑇𝑖𝑗 (1)
 𝐱が凸多面体の外の場合は正、内の場合は負
 学習時、勾配がmaxを取った超平面にしか伝播されない
 𝐶𝑗
+
(𝐱) = σ𝑖 relu 𝐷𝑖 𝑇𝑖𝑗 (2)
 𝐱が凸多面体の外の場合は正、内の場合はゼロ
 学習効率を高めるため、𝐶𝑗
∗
(𝐱)の条件を緩和

34
𝐶𝑗
+
(𝐱) = ෍
𝑖
relu 𝐷𝑖 𝑇𝑖𝑗
𝐱

35
𝐶𝑗
+
(𝐱) = ෍
𝑖
𝑇00
𝑇10
𝑇20
𝐷0
𝐷1
𝐷2
𝐶0
+
(𝐱) = 0
*𝐷0, 𝐷1, 𝐷2は負
𝐱

36
𝐶𝑗
+
(𝐱) = ෍
𝑖
𝑇31 𝑇41
𝑇51
𝑇61
𝐷4
𝐷5
𝐷6
𝐶1
+
(𝐱) = 𝐷3 + 𝐷6
*𝐷4, 𝐷5 は負
𝐷3
𝐱

Layer3: 凸多面体を座標𝐱へ割り当て
37

38
 𝑆∗(𝐱) = min
𝑗
𝐶𝑗
+
(𝐱) (3)
 学習時、勾配がminを取った凸多面体にしか伝播されない

39
 𝑆∗(𝐱) = min
𝑗
𝐶𝑗
+
(𝐱) (3)
 学習時、勾配がminを取った凸多面体にしか伝播されない
 𝑆+(𝐱) = σ 𝑗 𝑊𝑗 1 − 𝐶𝑗
+
(𝐱)
0,1 0,1
(4)
 ∙ 0,1 :クリッピング, 𝐖 ≈ 1
 学習効率を高めるため、 𝑆∗
(𝐱)の条件を緩和
 𝐱が凸多面体の外の場合は[0,1) 、内の場合は1となるよう
に学習

40
𝐶0
+
(𝐱) = 0
𝐱
𝑆∗(𝐱) = min
𝑗
𝐶𝑗
+
(𝐱)
𝐶1
+
(𝐱) = 𝐷3 + 𝐷6
𝑆∗(𝐱) = 𝐶0
+
(𝐱) = 0
座標𝐱から最も近い凸多面体までの距離

41
𝐶0
+
(𝐱) = 0
𝐱
𝑆+
(𝐱) = ෍
𝑗
𝑊𝑗 1 − 𝐶𝑗
+
(𝐱)
0,1
0,1
𝐶1
+
(𝐱) = 𝐷3 + 𝐷6
𝑆+
𝐱 = 𝑊0 1 − 𝐶0
+
𝐱 0,1 + 𝑊1 1 − 𝐶1
+
𝐱 0,1 0,1
= 𝑊0 + 𝑊1 1 − 𝐷3 − 𝐷6 0,1 0,1
𝑆∗を重み𝐖𝑐×1で緩和

連続と離散の2-Stage学習
42
Training Stage 1 – Continuous
 超平面を推定するパラメータ 𝜔と、凸多面体を構成する
超平面の組み合わせ 𝐓を学習し、 𝑆+
(𝐱)を最適化
 𝐓は二値行列ではなく、連続値として学習

43
(𝐱)を最適化
Training Stage 2 – Discrete
 𝐓を閾値 𝜆で二値化し固定
 超平面を推定するパラメータ 𝜔のみ学習し、 𝑆∗
(𝐱)を最適
化

44
(𝐱)を最適化
(5)
3D座標𝐱の3D Shape内外判定
をGround Truthと一致させる項
行列𝐓の各要素に0から1の間を取
らせるための正規化項
𝐖 ≈ 1とするための正規化項
argmin
𝜔,𝐓,𝐖
ℒrec
+
+ ℒ 𝐓
+
+ ℒ 𝐖
+

45
(𝐱)を最適化
(5)argmin
𝜔,𝐓,𝐖
ℒrec
+
+ ℒ 𝐓
+
+ ℒ 𝐖
+
ℒrec
+
= Ε 𝐱~G 𝑆+
𝐱 − 𝐹(𝐱|G) 2
𝐱が凸多面体の外の場合
は[0,1) 、内の場合は1
𝐱が凸多面体の外の場
合は0 、内の場合は1
G : Ground Truth

46
 𝐓を閾値 𝜆 = 0.01で二値化
 特徴量 𝐟から超平面を推定するパラメータ 𝜔のみ学習し、
𝑆∗(𝐱)を最適化
(9)argmin
𝜔
ℒrecon
∗ + ℒoverlap
∗
3D座標𝐱の3D Shape内外判定
をGround Truthと一致させる項
凸多面体の重複を避ける
ための項

47
(9)argmin
𝜔
ℒrecon
∗ + ℒoverlap
∗
ℒrecon
∗ = Ε 𝐱~G 𝐹(𝐱|G) ∙ max 𝑆∗ 𝐱 , 0
+Ε 𝐱~G 1 − 𝐹(𝐱|G) ∙ 1 − min 𝑆∗ 𝐱 , 1
𝑆∗
𝐱 : 𝐱が凸多面体の外の場合は> 0 、内の場合は0
𝐹 𝐱 G : 𝐱が凸多面体の外の場合は0 、内の場合は1

48
(9)argmin
𝜔
ℒrecon
∗ + ℒoverlap
∗
ℒrecon
∗ = Ε 𝐱~G 𝐹(𝐱|G) ∙ max 𝑆∗ 𝐱 , 0
+Ε 𝐱~G 1 − 𝐹(𝐱|G) ∙ 1 − min 𝑆∗ 𝐱 , 1
𝑆∗
多面体内のLoss

49
(9)argmin
𝜔
ℒrecon
∗ + ℒoverlap
∗
ℒrecon
∗ = Ε 𝐱~G 𝐹(𝐱|G) ∙ max 𝑆∗ 𝐱 , 0
+Ε 𝐱~G 1 − 𝐹(𝐱|G) ∙ 1 − min 𝑆∗ 𝐱 , 1
𝑆∗
多面体外のLoss

50
(9)argmin
𝜔
ℒrecon
∗ + ℒoverlap
∗
𝑆∗
𝑀 𝐱 : 𝐱が１つ以上の凸多面体の内の場合は1
ℒoverlap
∗
= −Ε 𝐱~G 𝑀(𝐱)𝑆∗
𝐱

実験で使用したパラメータ
51
 2D
 直線数: p=256
 凸多角形数: c=64
 encoder: ResNet-18
 3D
 平面数: p=4096
 凸多面体数: c=256
 encoder: 3D CNN (for voxel data)

Auto-encoding 2D shapes
52
 2Dの合成画像データセット
 64x64画像上に左から四角、クロス、中空の四角を並べた画
像
 Stage-2の方が1よりも良い結果
 Overlap Lossがコンパクトな表現に寄与

Auto-encoding 2D shapes
53
 凸多面体を表現するために使用された平面の例

Auto-encoding 3D Shapes
54
3D Shapeを入力とし、メッシュ生成
 ShapeNet (Part) Dataset
 air-plane, car, chair, lamp, tableの5クラス
 １クラスごとに１モデル学習
 以下のパフォーマンスを評価
 Reconstruction
 Segmentation

55
パーツへ分割する既存研究と比較
 Volumetric Primitives (VP)
 Tulsiani, S., Su, H., Guibas, L. J., Efros,A.A., & Malik, J. (2017). Learning
shape abstractions by assembling volumetric primitives. In Conference on
ComputerVision and Pattern Recognition.
 3D ShapeをPrimitive Shapeの集合で表現
 Super Quadrics (SQ)
 Paschalidou, D., Ulusoy,A. O., & Geiger,A. (2019). Superquadrics revisited:
Learning 3D shape parsing beyond cuboids. IEEE Conference on Computer
Vision and Pattern Recognition, 2019-June, 10336–10345.
 3D Shapeを超楕円体 (Super Quadrics)の集合で表現
 Branched Auto Encoders (BAE)
 Chen, Z.,Yin, K., Fisher, M., Chaudhuri, S., & Zhang, H. (2019). BAE-NET :
Branched Autoencoder for Shape Co-Segmentation. In International
Conference on ComputerVision.
 3D Shapeを陰関数で表現したパーツの集合で表現

56
 Semantic Segmentationの結果
 GroundTruthについたパーツごとのラベル情報を元に投票
 同じSemanticの凸多面体をグルーピングして色付け

57
 SegmentationとReconstruction結果の比較

Auto-encoding 3D Shapes (定量評価)
58
 Surface Reconstructionの定量評価
 Chamfer Distance (CD)
 Normal Consistency (NC)
 Light Field Distance (LFD)

Auto-encoding 3D Shapes (定量評価)
59
 Segmentationの定量評価
 ラベルごとのIoU

Single View Reconstruction (SVR)
60
１枚の画像から３次元モデル生成
 ShapeNetの1000以上の形状から3D-R2N2という手法を
用いてViewを描画
 １つのモデルですべてのカテゴリを学習

61
以下の手法と比較
 Atlasnet
 Groueix,T., Fisher, M., Kim,V. G., Russell, B. C., & Aubry, M. (2018).A
Papier-Mache Approach to Learning 3D Surface Generation. In
Conference on ComputerVision and Pattern Recognition.
 OccNet
 Mescheder, L., Oechsle, M., Niemeyer, M., Nowozin, S., & Geiger,A.
(2019). Occupancy Networks: Learning 3D Reconstruction in
Function Space. Conference on ComputerVision and Pattern Recognition.
 IM-NET
 Chen, Z. (2019). Learning Implicit Fields for Generative Shape
Modeling. Conference on ComputerVision and Pattern Recognition.

62
 定量評価
 Atlas0: 1つの球形パッチ使用
 Atlas25: 25個の正方形パッチを使用

63
 全カテゴリでの平均
 #V: 頂点数
 #F: 三角メッシュ数

64
 同じSemanticを持つパートを色付けした例

結論と課題
65
 凸多面体の集合として、3Dメッシュを生成するBSP-Netを
提案
 平面の集合として凸多面体を学習
 既存手法と比較し、定量的な性能を落とすことなく、
シャープな形状を表現できるなど、定性的に優れている
 凸多面体の集合で表せないような形状（例：コーヒーカッ
プのような凹面を持つもの）は苦手
 推論は早いが学習は遅い
 SVRタスクですべてのカテゴリを学習するのにRTX2080Tiで６
日

20200704 bsp net

Related slideshows

Recommended for you

Recommended for you

Recommended for you

Recommended for you

Recommended for you

Recommended for you

Recommended for you

Recommended for you

Recommended for you

Recommended for you

Recommended for you

Recommended for you

Recommended for you

Recommended for you

Recommended for you

Recommended for you

More Related Content

What's hot

What's hot (20)

Similar to 20200704 bsp net

Similar to 20200704 bsp net (20)

More from Takuya Minagawa

More from Takuya Minagawa (12)

Recently uploaded

Recently uploaded (12)

20200704 bsp net