Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold Abstract Synthesizing visual content that meets users' needs often requires flexible and precise controllability of the pose, shape, expression, and layout of the generated objects. Existing approaches gain controllability of generative adversarial networks (GANs) via manually annotated training data or a prior 3D
Stable Diffusionが公開されてから、拡散モデルで自動着色したいと思っていて、自動着色についていろいろ調べていた。 最近、Style2Paints V5 Previewが発表されて、拡散モデルによる自動着色で高いクオリティの自動着色が実現できることが示された。 ControlNet Style2Paints V5は、ControlNetという方法が使われており、つい先日、論文とソースが公開された。 線画の着色の学習済みモデルも公開されているが、アニメイラストの自動着色のモデルは、権利の関係で公開されていない。 また、公開されたモデルでは、元のイラストの線が少し書き換えられることがあり、生成画像の質は高いが着色用途には問題がある。 イラストの着色には、元の線を保持する特化したモデルが必要である。 従来の着色技術 拡散モデル以前は、GANによる手法が主流であったが、GANによる手法
本記事は、画像生成AI Advent Calendar 2022 15日目を埋める記事です。 はじめに 画像生成AIは、学習した画像をコラージュした画像を出力しているのではないか、という議論があります。多くのモデルは勝手に収集した画像で学習(訓練)されているため、そのようなコラ画像が生成されていたら大問題です。 上の図を見てください。この図は、今月投稿された論文 [1] Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models [Gowthami Somepalli+, arXiv 2022] の図です。上段がStable Diffusionの生成画像、下段が訓練データのサブセット(LAION Aesthetics v2 6+)中で一番似た画像です。生成画像の一部またはほぼ全部が
Run time and cost This model runs on Nvidia A40 GPU hardware. Predictions typically complete within 5 seconds. Replicate demo for GFPGAN (You may need to login in to upload images~) GFPGAN aims at developing Practical Algorithm for Real-world Face Restoration. If GFPGAN is helpful, please help to ⭐ the Github Repo and recommend it to your friends 😊 📧Contact If you have any question, please email
概要 CondidionalGANは条件付き敵対的生成ネットワークと呼ばれます 通常のGANでは生成されるデータはランダムとなっています。 手書き数字の例でいうと0が生成されるか1が生成されるかなどはランダムに決定され、数字を指定しての作成は難しいです。 そこで、潜在変数と本物画像、偽物画像のそれぞれに現在はなんのデータに関しての学習を行っているかを教えながら学習することで、生成したいデータを指定することができるようになります ラベリング 現在なんのデータに関しての学習を行っているかを教える方法は以下の通りです。 潜在変数 潜在変数にOne-Hotエンコーディングでラベリングしたベクトルを結合する 生成画像、本物画像 One-Hotベクトルを画像サイズに拡大したクラス数分のOne-Hot画像をチャンネル方向に結合する。 One-Hot画像は、すべての要素が1の画像が一枚で残りはすべての要素
Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 NVIDIAと米Cornell Universityの研究チームが開発した「GANcraft: Unsupervised 3D Neural Rendering of Minecraft Worlds」は、マインクラフトなどのボクセルベースの大規模な世界を写実的な画像に変換する手法だ。土や砂、草木、雪、海、空などをリアルに表現し、見る視点を移動しても一貫した画像を提供する。ゲームやアニメーションの背景、バーチャル空間の作成にも役立つ可能性を秘めている。 マインクラフトは、規則的なグリッド上にブロックを置くだけで3次元空間を構築できる、子どもでも可能な手軽さが魅力だが、各3Dブロックは大きく
Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 シンガポールのNanyang Technological Universityの研究チームが開発した「RainGAN: Unsupervised Raindrop Removal via Decomposition and Composition」は、画像に写り込んだ水滴を除去する深層学習を用いた技術だ。雨などによってカメラレンズの表面に直接付着した水滴を撮影後の画像から除去する。 雨粒などでカメラのレンズに付着した水滴は、シーンの一部をゆがませたり、覆い隠したりするため、自動運転車や屋外監視カメラなど、コンピュータビジョンアプリケーションの性能を低下させる。そのため、水滴を除去してシーン
Self-Distilled StyleGAN: Towards Generation from Internet Photos Ron Mokady Michal Yarom Omer Tov Oran Lang Daniel Cohen-Or Tali Dekel Michal Irani Inbar Mosseri Abstract StyleGAN is known to produce high-fidelity images, while also offering unprecedented semantic editing. However, these fascinating abilities have been demonstrated only on a limited set of datasets, which are usually structurally
Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 国立台湾科技大学の研究チームが開発した「Cartoon Style Transfer in Faces using GANs」は、現実の顔のアイデンティティーを維持したままアニメ風の顔画像に変換するGAN(Generative Adversarial Network)を使った手法だ。実写感を排除しているのに、元の顔の原型をできるだけ残した点が特徴だ。 先行研究でも実写の顔画像からアニメ風の顔画像にスタイル変換するGANを使ったモデルが多数報告されている。TikTokやSnapchatなどの多くのモバイルアプリでも顔をアニメ化できるカートゥーン・フィルター機能を提供している。 これらの問題点
Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 米イリノイ大学アーバナ・シャンペーン校の研究チームが開発した「JoJoGAN: One Shot Face Stylization」は、入力した1枚の顔画像を漫画「ジョジョの奇妙な冒険」のキャラクター風に変換する機械学習フレームワークだ。「空条承太郎」など、作中のキャラクタースタイルに似せた顔に変換する。このフレームワークは、大量のペア画像データセットを使わず、1枚の顔画像から学習できる特性を持つ。 画像をスタイル変換するモデルは、大量のペア画像データセットを必要とするが、そのデータを準備するにはコストがかかる。数枚の画像からスタイル変換する研究も報告されているが、詳細なスタイルや多様性を
AWS Machine Learning Blog Build GAN with PyTorch and Amazon SageMaker GAN is a generative ML model that is widely used in advertising, games, entertainment, media, pharmaceuticals, and other industries. You can use it to create fictional characters and scenes, simulate facial aging, change image styles, produce chemical formulas synthetic data, and more. For example, the following images show the
米NVIDIAは11月22日(米国時間)、風景画像を自動生成する同社のAI技術「GauGAN」(ゴーギャン)の新モデルである「GauGAN 2」を発表した。従来はベタ塗りからリアルな画像を生成できていたが、GauGAN 2では文字情報を与えるだけで画像を生成できるようになった。 同社が公開している動画では「ocean waves hitting rocks on the beach」(ビーチの岩に当たる波)と入力する過程が収められており、「ocean」の段階では湾を俯瞰した画像が作られ、「waves」まで入れると波が現れ、「hitting rocks」まで入れた段階では波打ち際の画像が生成されている。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く