Using AI, we can generate a realistic approximation of a subject based on old photographs, paintings, drawings, sketches, and assorted other media.
画像生成AIでグラビアアイドルを作りたい。 でも実在する人と同じ顔が出たら困る。 そんなあなたに獣頭人身というソリューション。 AIでグラビアアイドルを作ったら 最近、画像生成AIでグラビアアイドルを作るのにハマっている。こういうやつだ。 カエル イカ サメ カマキリ Twitterで貼っていたらこれがバズる。 多少はウケるかなとは思っていたが、想像以上のバズりで驚いている。ネタとしては全く新しいものでもないし、色々と詰めの甘い部分も多い。それでも多くの人が興味を持ち、さらに画像生成AIネタなのに批判も少なかった。 だが、ツッコミが皆無というわけではない。その中にはもっともな内容もあるが、そもそも「目的が違う」と言いたいものもある。これはある意味で仕方ない。今回はTwitterでのバズなので、文脈が切り離された単体のツイートが広まっていくのだから。 なのでブログでまとめることにした。 そも
こちらの記事は2023年3月9日に投稿された旧バージョンです。特段の理由がなければ、最新事情を盛り込んだ「AIイラストが理解る!StableDiffusion超入門」をご覧ください。 こんばんは、スタジオ真榊です。このところ、ツイッター経由で公式サイトやこちらのFANBOXへのアクセスが急増しており、これからAIイラストを始め...
概要DreamBoothとは追加学習することで、AI(StableDiffusion)で特定のキャラや物を描くためのモデル(データ)作るツールです。 例えば、ドラゴンクエスト10オンラインというゲームのアンルシアというキャラがいます。 ドラゴンクエスト10のアンルシア 公式サイトより引用 https://hiroba.dqx.jp/sc/election/queen2021/vote/confirm/1/nologinこのキャラの画像を18枚ほどAIに読み込ませ、追加学習し、AIに描かせた絵が以下の絵になります。 これ見ると、単なる髪型や顔が似ているレベルではなく、服の模様レベルまで再現できている事がわかります。 今までStableDiffusionの欠点として、同じキャラを安定して描くのが苦手というのがありましたが、DreamBoothを使うことで克服することが出来ます。 これにより、A
昨日の続き。 jtnoske.hateblo.jp やはり構図を決めるにはimg2imgや、と思い立つ promptとキャンバス縦横比とかで構図のコントロールに挑戦したけど、いやこりゃ無理だわやっぱ構図を自分で決めるならimg2imgでいろいろ指定してやらないといかんのだろな、ということでimg2imgを導入する。 導入 導入方法は各所で上がっていますが、自分は↓のコードをコピペして、 github.com ↓ のコードを参考に実行をしました。 www.12-technology.com Hな方々は↓を(トラバ含めて)参照し、safety_checkerを切りましょう。変更箇所はStableDiffusionPipelineとほとんど同じです。 anond.hatelabo.jp 絵が描けないので img2img(1): 全身立ち絵 絵を用意しよう、なんだけどどう用意するか。 まず思いつい
AIが画像を自動生成してくれる「Stable Diffusion」がすごい。これを使ったサービス「DreamStudio」は1枚6秒ほどで画像を生成してくれて早いが、無料枠を超えて使うには課金が必要になる。 Google Colabという、Pythonの実行環境を提供してくれるサービス上でStable Diffusionを動かせるそうだ。お金はかからない。1枚の画像生成にかかるのは30秒ほど。その方法は以下で解説されている。 Google Colab で はじめる Stable Diffusion v1.4|npaka|note 自分でもやってみて、今は無事にStable Diffusionを使えるようになっている。しかしGoogle Colabを使うのも初めてだったので上の記事だけだと詰まるところもあった。ここではそれを解説したいと思う。 ライセンスの確認 Hugging Faceのトー
話題のStableDiffusionがオープンソースで8/23に公開されたので、手元のマシンで動かすまで試したいと思います🖼 (下記に記載していますが、自分の環境だとVRAMが不足しているエラーが出てしまったのでイレギュラーな対応をしています🙏) ※ ↑追記 コメント欄にて、 @kn1chtさんが紹介してくださっているように、マシンのVRAMが10GB未満の環境では半精度(float16)のモデルがオススメされています。 本記事では、別の最適化されたものを紹介していますが、こちらの利用も検討してみると良さそうです👉 https://zenn.dev/link/comments/7a470dc767d8c8 StableDiffusionがどんなものかは、深津さんの記事が参考になります。 1. 環境 Razer Blade (RTX 2070, VRAM 8GB) CUDA Toolk
こんにちは、前回前々回と記事を書いてきたStableDiffusionの公式web版「DreamStudio」の有料βがとうとう開始されましたので簡単に解説しておきます。 DreamStudio https://beta.dreamstudio.ai/dream 基本画面と項目解説■料金について サインアップ時にフリートライアル用に画像約200枚分のポンドが配布されます。課金は10ポンド単位(画像約1000枚分)でできます。日本円で1600円くらいですね。ただ注意してほしいのは、"約1枚分"という基準はあくまで基本設定の「解像度512*512ステップ数50」の画像を生成する場合です。御覧の通りある程度自由にサイズや品質を設定可能ですが、最大品質の「解像度1024*1024ステップ数150」では、一度に28.2の計算コストがかかります。「残り100枚くらい生成できるな~」と思って最大品質のを
一応、StableDiffusionとははっきりまず言います…とにかくやばいです。 分かりやすく、他のDALL・E2、Midjourney、Disco Diffusion、他有象無象Text to image machine learning系サービスと比較しますと… クオリティがかなり高い。 制限がなくなり、かなり細かい調整ができるようになったDALL・E2のような感じです。 生成が早い。 設定なしで使えば正直体感DALLE2より早いです。6秒..くらい? 安い。 3円くらいだと思います。 DALL・E2は1生成17円。Midjourneyは月4000円。 オープンソース これからいろんなサービスにこのAIが搭載されます。 他AIではかけられている学習データのフィルターがない。 各国の代表者や、有名人、ポルノがデータに含まれています。 PC上で使用できる。( = その場合無料) いや、こ
この度、当社が提供する恋活・婚活マッチングアプリ「Omiai」を管理するサーバーに対し、外部からの不正アクセスを受け、会員様情報の一部が流出した可能性が高い事が判明しました。 本件に関して、現時点で判明している概要と対応につきまして、下記の通りご報告いたしますとともに、会員様および関係各位の皆様にご心配、ご迷惑をおかけすることとなり、深くお詫び申し上げます。なお、現時点におきまして、今回の事案に関わる個人情報の不正流用等の事実は確認されておりません。 今後当社は、会員様情報の不正流用の発生防止に努めるとともに、本件に誠意を持って全力で対応させていただく所存でございます。皆様にご心配をおかけすることを重ねてお詫び申し上げます。 今回の対象のお客様におかれましては、万が一身に覚えのない連絡や、心当たりのないコンタクトがあった場合、念のためご注意をお願いいたします。また、何かお気づきの点がござい
個人開発・ポートフォリオ作成をする方に贈る いくらプロダクトが素晴らしいとしても、一見してダサいデザインだと、ユーザーは使う気がなくなってしまう。 でも、今からデザインの勉強をするのは面倒だし、そこまでこだわりがあるわけでもない。 Q. 簡単に及第点のデザインにできるサービスとかないんですか? A. あります。 ということで、デザインのことはよくわからなくても、簡単にそれっぽくできるサービスをまとめました。 個人的には、「それっぽさ」の大部分はページレイアウトと画像、「こなれ感」は配色とフォントによって構成されていると思っています。 また、私はケチなのでここで紹介しているものは、すべて無料で使えるサービスです(課金プランはある)。 書かないこと 細かい使い方 大体有名なので、使い方はggれば出てきます。 ライセンスなどの情報 特に素材系は規約などを確認の上で使ってください。 あくまでも、こ
0. 忙しい方へ 完全に畳み込みとさようならしてSoTA達成したよ Vision Transformerの重要なことは次の3つだよ 画像パッチを単語のように扱うよ アーキテクチャはTransformerのエンコーダー部分だよ 巨大なデータセットJFT-300Mで事前学習するよ SoTAを上回る性能を約$\frac{1}{15}$の計算コストで得られたよ 事前学習データセットとモデルをさらに大きくすることでまだまだ性能向上する余地があるよ 1. Vision Transformerの解説 Vision Transformer(=ViT)の重要な部分は次の3つです。 入力画像 アーキテクチャ 事前学習とファインチューニング それぞれについて見ていきましょう。 1.1 入力画像 まず入力画像についてです。ViTはTransformerをベースとしたモデル(というより一部を丸々使っている)ですが、
はじめに 先日、ポケモンたかさおじさんこと、生㌔Pのブログにて次のような記事が投稿された。 ポケモンらしさ-2_意見分析 マスコット感検証 https://pkmnheight.blogspot.com/2020/04/2.html ざっくり引用すると、以前バズってた以下の海外の分析画像を、転載したTweetがあった。 ポケモンのデザインはどんどん生物的じゃなくなって行ってて、色んな部位が丸みを帯びてただの可愛いマスコットキャラクターと化してるっていう海外の分析画像が凄い pic.twitter.com/qHHVaHzEue — Χ十 ◤カイジュー◢(⃔ *`꒳´ * )⃕↝♡ (@KaijuXO) June 13, 2019 このTweetに対して、ポケモンたかさおじさんが 猛撃 していたというものである。 ざっっっくり要約すると、各世代ごとに幼虫・昆虫ごとに部位をピックアップし、 そう
この記事を書くに至ったきっかけ Recruse Centerでは、私は、画像処理の勉強に時間を費やしていました。独学をし始めた頃は、何をするものなのか全く理解しておらず、ただ、文字や輪郭、模様などを識別するのに役立ち、これらで面白いことができる、ということくらいの知識しかありませんでした。 私の情報源は、主にWikipediaや書籍、公開されている大学の講義ノートです。これらの資料に慣れ親しんでくるにつれ、画像処理の世界における基礎を伝えられる「入門向け画像処理」を望むようになりました。 これが、この記事を書こうと思ったきっかけです。 前提条件 この記事は、Pythonが扱えるということを前提に書いています。その他の事前知識は必要ありませんが、NumPyや行列計算に慣れていると理解しやすいでしょう。 初めに 使用するのは、Python版OpenCV、Python 2.7 ^(1) 、iPy
みんな大好きImageMagickは、入力画像のデフォルトの色空間はsRGBだとみなす一方、各種の画像加工のオペレータは対象となるデータの色空間がRGBであることを前提としている。したがって、色空間を明示的に変換しないで処理を行うと結果がおかしなことになるのだ。本家の記事にも書いてあるが、たとえリサイズであっても色空間の影響を受けてしまう。 リサイズを「convert old.jpg -resize 400x300 new.jpg」とかやるように書いているサイトが多い。それも間違いではないが、最適ではない。これからは「convert old.jpg -colorspace rgb -resize 400x300 new.jpg」ってやってほしい。 人間の視覚の特性として、暗いところの輝度の差には敏感だが、明るいところの輝度の差には鈍感だというのがある。暗い部屋で豆電球を点けると明るさが分か
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く