サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。
Kuwahara filterとかいう明らかに日本人の名前な画像フィルターに出会い、試してみたらすごかったので紹介する。Python画像処理画像加工フィルター 6/15追記 あとがきの提案について書きました 写真表現としての桑原フィルターの提案 #はじめに Kuwahara filter(桑原フィルター)とは 桑原フィルターは桑原道義さんという大学教授(Wikipedia曰く)が考案した平滑化フィルターの一種で、内容のシンプルさに反して上手いことかけるとまるで油絵のようになる、なんだかすごいフィルターであーる(先に結果が見たい方は記事の一番下を覗いてみよう) Kuwahara filter -Wikipedia SPECT用データ処理 (元論文?) #桑原フィルターの内容 https://upload.wikimedia.org/wikipedia/commons/4/49/Kuwahar
全体像 全体としてはこんな感じです。レンズを通して顔の像を作るところは光学の世界、センサ面に結像された像を読み取る電子の世界。そして、センサと PC の橋渡しを USB で行う通信の世界、受け取ったフレームを処理するソフトウエアの世界、という流れで説明していきます。 物理(光学)の世界~一眼とWebカメラ(とスマホ)の違い~ 一番大きな違いは設計思想そのものです。レンズとセンサの大きさ、撮影設定などの柔軟性などに現れています。 一眼レフ:でっかいレンズ × でっかいセンサ = つよい Web カメラ:写ってればいいでしょレベル~産業用レベル スマホ:目的ごとに複数のカメラモジュールを用意したりソフトで後処理したり。ともかく小さく薄く。 光学の世界で大事なことを一つだけ(機種選択の基準として) ピント合わせ の方式はどうなっているか? マニュアルフォーカス → 自分でリング回す:ピント合わせ
概要 pythonからOpenCVのテンプレートマッチ及びGUI操作モジュールを使うことで、 webブラウザ上の麻雀牌をBOTに認識・クリック操作させることができ、プレイの自動化ができました。 また、どの麻雀牌をクリックするかのロジック部分には機械学習を用いました。 テンプレートマッチの探索用画像を差し替えれば雀魂に限らず他の麻雀ゲーム全般で利用可能であり、機械学習の部分を変えれば、特定条件下で合理的選択を繰り返し求められるようなゲーム全般で応用が可能です。 ※内容理解の一助とするために記事内随所に雀魂のゲーム内画像を利用していますが、著作権保護等の観点から強いボカシを入れています。 対象読者 (麻雀が好きで)機械学習を触ってみたい人 WindowsやGUI操作の自動化に興味があるけどOpenCVって何だろうって人 雀魂は好きだけど試練イベント走るのがマジ試練すぎて心が折れた人 過去に大学
この記事はOpenCV Advent Calendar 2020の12日目の記事です。 他の記事は目次にまとめられています。 対象者 以下みたいな作業依頼を受けることのある人。 つまり、デザインに予算はつかないけど、ある程度の工夫を求められるやつ。。。 上長「部内とかで見せるちょっとしたデモをパパッと作って欲しい」 高橋「デザインは○○さんか、△△社さんにお願いします?」 ※○○さん:デザイン会社から派遣で来ているデザイナーさん ※△△社:デザイン会社 上長「今回、デザインに出すお金は無い」 高橋「What?」 高橋「それじゃ、見た目は気にしな」 上長「偉い人も見る可能性あるからソレっぽくしといてもらわないと困る」 高橋「短い間ですが、お世話になりました」 Flaskとか立てて、UI作る人とデザイナーと役割分担出来るようなプロジェクトは対象外 はじめに OpenCVとかPillowで出来る
この記事は「自動運転システムをエッジデバイスに組み込むための技術」を3回に分けて紹介するTURINGのテックブログ連載の第1回の記事「C++でOpenCV完全入門!」です。 第2回の「OpenCVをNPPにした結果→10倍高速に!」、第3回の「詳解V4L2 (video for linux 2)」もぜひご覧ください! はじめに こんにちは。完全自動運転EVを開発するベンチャー企業、TURING株式会社でインターンをしている東大工学部3年の井上信多郎です。 我々人類は、車を運転するにあたって多くの情報を目から取り入れています。目から取り入れた情報を元に、アクセル・ブレーキ・ハンドルを操作しています。 自動運転の場合、その目に相当するセンサがカメラであり、カメラから得た情報を元に車を運転することになります。カメラから得る情報とは、ずばり画像です。画像の中から信号、標識、前方車両などの必要なもの
import cv2 img = cv2.imread('test.jpg') (await winocr.recognize_cv2(img, 'ja')).text pip install jupyterlab jupyter_http_over_ws jupyter serverextension enable --py jupyter_http_over_ws jupyter notebook --NotebookApp.allow_origin='https://colab.research.google.com' --ip=0.0.0.0 --port=8888 --NotebookApp.port_retries=0
はじめに 先日、ポケモンたかさおじさんこと、生㌔Pのブログにて次のような記事が投稿された。 ポケモンらしさ-2_意見分析 マスコット感検証 https://pkmnheight.blogspot.com/2020/04/2.html ざっくり引用すると、以前バズってた以下の海外の分析画像を、転載したTweetがあった。 ポケモンのデザインはどんどん生物的じゃなくなって行ってて、色んな部位が丸みを帯びてただの可愛いマスコットキャラクターと化してるっていう海外の分析画像が凄い pic.twitter.com/qHHVaHzEue — Χ十 ◤カイジュー◢(⃔ *`꒳´ * )⃕↝♡ (@KaijuXO) June 13, 2019 このTweetに対して、ポケモンたかさおじさんが 猛撃 していたというものである。 ざっっっくり要約すると、各世代ごとに幼虫・昆虫ごとに部位をピックアップし、 そう
この記事は「自動運転システムをエッジデバイスに組み込むための技術」を3回に分けて紹介するTURINGのテックブログ連載の第2回の記事「OpenCVをNPPにした結果→10倍高速に!」です。 第1回の「C++でOpenCV完全入門!」、第3回の「詳解V4L2 (video for linux 2)」もぜひご覧ください! はじめに TURINGで働いている木更津高専の越智です。TURINGでは「We Overtake Tesla」を目標に掲げて、完全自動運転EVの開発・製造を行っています。 TURINGでは、社内で使っている自動運転ソフトウェアにおいて、画像処理部分のライブラリをOpenCVからNVIDIA Performance Primitives(NPP)に変更するプロジェクトに取り組んでいました。これによって、CPUで動かしていた画像処理をGPUバックエンドで動かすことができるようにな
この記事はOpenCV Advent Calendar 2021の 23 日目の記事です。 はじめに 3 日目の記事で紹介されているように、OpenCV 4.5.4 では新しく顔検出/顔認識の API が実装されました。この記事ではこの顔検出 API をブラウザから呼んでみることにします。ブラウザから呼び出すにあたって、先にきちんとパフォーマンスを確認して使用する解像度を決めます。更に高速化のために SIMD とマルチスレッドを使った OpenCV の Wasm バイナリを作ります。その後、実用的な環境を想定して React のフロントエンドから呼び出すようにしてみます。ついでに WebRTC で実際に加工した画像が送信できることのデモまで行います。 OpenCV.js での新機能の扱い OpenCV.js で JavaScript から呼び出せる機能はホワイトリスト形式になっており、ビル
OpenCV-Python Is Now An Official OpenCV Project OpenCV Library February 14, 2021 Leave a Comment News Uncategorized Good news, everyone! OpenCV.org is pleased to announce that the popular and long-running package OpenCV-Python is now an official OpenCV project. What is OpenCV-Python? It’s a package that contains pre-built OpenCV with dependencies and Python bindings, so there’s no need to install
手っ取り早く、やられたシーンを抽出したい人向け OBSと連携するWebアプリを作成しました 詳細はこちらの記事をご参照ください。 スプラトゥーン3で、やられたシーンをOBSのリプレイバッファで自動保存する 以前のWebアプリ スプラトゥーン2 やられたシーン自動頭出しツール「iKut」 Dockerイメージ こちらでDockerイメージを配布しています。 はじめに スプラトゥーン2を発売日からやりこんで3年になります。2年かけて全ルールがウデマエXに到達しましたが、そこからXパワーが上がらずウデマエX最底辺で停滞しています。最近は自分のプレイ動画を見て対策を立てるのですが、すべての動画を見るのは大変です。そこで敵にやられたシーンは特に修正すべき自分の弱点があると考え、そこだけを自動で抽出するシステムを作ってみました。 ↑このシーンを切り出します。 画像の引用 この記事では任天堂株式会社のゲ
この記事は「自動運転システムをエッジデバイスに組み込むための技術」を3回に分けて紹介するTURINGのテックブログ連載の第3回の記事「詳解V4L2 (video for linux2)」です。 第1回の「C++でOpenCV完全入門!」、第2回の「OpenCVをNPPにした結果→10倍高速に!」もぜひご覧ください! はじめに こんにちは。TURING株式会社(以下、TURING)で、インターンをしている東大B3の中村です。 TURINGは、完全自動運転EVを作ることを目的に設立されたベンチャー企業です。自動運転システムとそれを搭載したEV車の開発を行っています。 TURINGの自動運転システムは、カメラからの映像入力を肝としています。これまではOpenCVを入力のインターフェイスとして利用していました。OpenCVを使用していたのは、 buildや使用法についての情報が多い コードが簡単に
初心者向けTellus学習コース 本教材は2020年度に提供した教材のため、Tellusの画面やAPIが現在の仕様と異なっている部分がありますのでご注意ください。 2018年度にリリースした衛星データをクラウド上で分析できる日本発の衛星データプラットフォーム「Tellus」は、2019年度にTellusをより多くの方にご活用いただけるようeラーニング講座を応募者への抽選登録制で提供してまいりましたが、2020年3月から、プログラミングと機械学習の基礎が学習できる「Tellus Trainer」と「初心者向け Tellus 学習コース」の2つのeラーニング講座を公開制限なしで提供することとなりました。 本教材「Tellus初心者向け学習コース」では、Python初心者向け教材となる基礎編と、Pythonで学ぶ実践的な衛星データ解析となる地理空間情報解析編(応用編)に分かれます。 基礎編では、
R&D チームの徳田(@dakuton)です。 最近は画像とテキストの狭間にいます。 今回記事のまとめ 簡単にまとめると以下のとおりです。 いくつかの超解像(高解像度化)モデルがOpenCV extra modules(opencv_contrib)インストール + コード数行記述で導入可能 超解像に限らず、文字が一定サイズ以上になるような前処理 -> OCR解析 を実施すると、OCR精度改善につながることがある 超解像による見た目の滑らかさに比例して、OCR精度改善につながるわけではない 低計算コストな画像拡大から超解像に変更する恩恵は発生しにくい テスト条件を変えた場合、違った結果になる可能性あり(用いるOCRエンジン、画像の劣化条件、OpenCV未提供の後発モデル利用など) 実験内容 利用するOCRエンジンの実行条件は変えずに、前処理部分のみ変更した場合のOCR精度・速度変化を調べま
やりたいこと 居住しているマンションの玄関に夜な夜な不審者が出没しているようなので、玄関のドアにWEBカメラを取り付けRaspberryPiで解析・記録するシステムを作ってみました。仕様は次の通りです。 画面上に撮影した映像と時刻を表示する 玄関の前に誰かきたら静止画をjpeg形式で記録する 記録した静止画には撮影時刻を埋め込む 誤検知はある程度許容する ※ちなみに、カメラの設置は許可取得済みです。 参考にした記事 最初はパソコン工房さんの記事を参考に顔検知でやろうと思いました、誤検知が多くて今回の用途には適しませんでした。 https://www.pc-koubou.jp/magazine/19205 いろいろ考えた結果、動体検知(撮影している映像に変化があったことを検知)によって実現できそうだな、と思い試行錯誤の結果そこそこ上手く行ったので方法を紹介します。 なお、動体検知のやりかたは
幾何形状マッチングはOpenCVには非実装だったため、自動的に候補から除外されます。個人的にはかなり便利なマッチング方式だと思うので、実装してほしいんですけどね…。 次に、形状変化への強さは特徴点マッチングが優秀です。 テンプレートマッチングと幾何形状マッチングは、マッチングの元画像と対象画像が拡大・縮小・回転を用いて一致するものしか対応できません。 一方の特徴点マッチングは、拡大・縮小・回転に加え、せん断・歪みまで対応できます。冒頭にもあるように斜めから見た画像(=歪み変形した画像)同士を比較したいので、特徴点マッチングを採用しました。 ちなみに、拡大・縮小・回転・せん断が可能で、更に移動を実現できる変形をアフィン変換(変形)、このアフィン変換に歪み変形を加えたものを射影変換(変形)と呼びます。 画像の多くの箇所が同時に色味の変化を起こすことはないだろうと予想し、特徴点マッチングで問題な
AI時代に必要な画像処理の本 今や猫も杓子もAIだディープラーニングだと言われる時代です。特に画像認識だと、とりあえずAIでしょ!みたいな感じはありますが、やはりそのバックグラウンドにある基本的な画像処理は重要なのではないかなと思う今日この頃です。 そんなことを思ったのは、Interface誌2020年7月号の画像処理特集が良かったからです。 Interface(インターフェース) 2020年 07 月号 CQ出版Amazon 気づいている人は気づいていると思うのですが、Interface誌の画像処理特集は毎年の恒例行事です(笑)正直、内容も同じような感じなので(めちゃくちゃ失礼)、今年は買わなくても良いかなと思っていたのですが、YouTube時代の画像処理特集にあった写真の、筆者の身体の張り具合をみて思わず手を出してしまいました。 Interface誌より引用。話題のFaceAppなんて
こんにちは、CX事業本部 IoT事業部の若槻です。 前回のエントリではOpenCV(Python)のHigh-level GUIを使用して画像をウィンドウで開いてみました。 OpenCV(Python)で画像をウィンドウで開いたり閉じたりする | DevelopersIO 今回は、OpenCVPython)でTemplate Matchingを使用して画像内の検索(物体検出)をしてみました。 環境 $ sw_vers ProductName: macOS ProductVersion: 11.6 BuildVersion: 20G165 $ python Python 3.9.6 (default, Jun 29 2021, 06:20:32) [Clang 12.0.0 (clang-1200.0.32.29)] on darwin Type "help", "copyright", "
1.はじめに 今回のタスクはRaspberry PiとUSBカメラを使って画像処理による外観検査装置を作ることです。 いわゆる外観検査装置には様々な専門メーカーが非常に多機能な装置を提供しており入手も簡単ですが、高価すぎてコストメリットが出しにくいケースもあるかと思います。 ちなみにみんな大好き○ーエンスさんの外観検査装置は、カメラ+コントローラー+照明でざっくり150万円くらいしますが、今回は照明無し、カメラ(USBカメラ)+コントローラー(Raspberry Pi 4B 4GB)の計1万円強でやってみます。 外観検査をする際は撮影環境の設定がとても重要です。 前編ではv4l2によるカメラのパラメータ設定を行います。 後編では実際に検査を行うプログラムを解説します。 2.検査する内容 今回トライするのは、「樹脂成型部品のショートショットの検出」です。ショートショットと言うのは、樹脂の射出
はじめに 趣味でノードエディタ形式の画像処理ツール「Image-Processing-Node-Editor」を作りました。 その紹介の記事です。中身にOpenCVガッツリ使っているからアドカレOKですよね。。。👀? ガッツリ使っているという意味では、GUI部分の DearPyGui のほうがガッツリ使っているかもしれませんが🤔 「Image-Processing-Node-Editor」とは 以下のように、ノードを接続していくことで、処理結果を可視化しながら画像処理が行えるツールです。 以下のような特徴があります。 主要な処理は全てPython ※ライブラリ部分除く 各処理を可視化しながら画像処理が試せる 自作ノードの追加が容易 (だと信じている) 記事書くために見直していましたが、イマイチ複雑ですわ、、、😇 OSS (Apache 2.0ライセンス) デフォルトでいくつかのAI機
照明ムラがある環境下で二値化を行い対象物を抽出しようとする場合、普通に二値化処理を行うと大抵上手く抽出できません。 下の画像はその例で、画像上部が明るめ、画像下部が暗めのになっています。この画像から米粒を抜き出そうとして大津の方法を適用すると、照明ムラの影響を受けて上手く抽出できていないことが分かります。 このような時の対処法の例がMathWorksのホームページに掲載されており、今回はOpenCVで実装します。 jp.mathworks.com // 画像をグレースケールで読み込む Mat gray; imread("non_uniform_illumination_example.png", IMREAD_GRAYSCALE).copyTo(gray); if (gray.empty()) { throw runtime_error("Failed to open image"); }
以前、Keras+Tensorflowで学習したモデルをOpenCVで推論に使用する方法について解説したことがありました。 run Keras model on opencv from Takuya Minagawa www.slideshare.net OpenCVにはDNNモジュールという畳み込みニューラルネットワークを使用するための機能があります。ただこれは主に推論用で、学習のためには別のディープラーニングフレームワークで作成したモデルを別途読み込む必要があります。 OpenCVはTensorflowやCaffe等いくつかのフレームワークをサポートしているのですが、前回は初学者にも使いやすいだろうという理由でKears+Tensorflowのモデルを選択しました。なお、OpenCVはTorchはサポートしてますがPyTorchはサポートしてませんでした。 しかしながら、OpenCVは
スプラトゥーン動画解析してみた スプラトゥーンの観戦動画から、プレイヤーの位置情報を解析してみました。 元ネタは、北海道甲子園(?)のイカ自慢コンテストで有名チームの解析を行ってるかたがいて、興味があったので自分もやってみました。 解析結果 INPUTは観戦視点の動画。 OUTPUTは各プレイヤーの位置情報の分布です。 例えばある試合の4人の位置情報は以下でした。 シューターのほうがステージをまんべんなく動いてることが分かりますねー。 ■リッター ■スパッタリー ■プライム ■スクイク 解析方法 こんな感じです ①観戦動画を撮る(地味にハードル高い。説明は割愛) ②動画を白黒変換 ③白黒変換された動画から、各プレイヤー名の画像を抜き出す ④openCVのパターンマッチングで位置情報取得 ⑤④で取得した位置情報の周辺も適当に重みづけして位置情報を画像で出力 ⑥ステージ画像を⑤の画像を合成 解
こちらは ドワンゴ Advent Calendar 2021 4日目の記事です。 はじめに 新型コロナウイルス対策の一環としてテレワークが急速に普及し、今はご自宅でお仕事をされている方も多いのではないでしょうか。 私が働く会社でも、感染対策として昨年2月という比較的早い時期から原則在宅勤務が導入され、昨年7月にその制度が恒久化されました。 さて突然ですが、みなさんの仕事部屋に防球ネットは置いてありますか? 私はあります。(マウント) 仕事部屋です 防球ネットが仕事部屋にあると非常に便利です。仕事で溜まったストレスをいつでも軟式M号球に込めて防球ネットにぶつけて発散することが出来ます。 ただ、仕事部屋の広さは約7帖で、日本の一般的な住宅の1室としては普通の広さかなと思いますが、軟式球を投げるにはあまりに狭過ぎます。 それでも防球ネットは安定して私の投げたボールを受け止めてくれるので素晴らしい
import cv2 import os def extractFrames(pathIn, pathOut): if not os.path.exists(pathOut): os.mkdir(pathOut) cap = cv2.VideoCapture(pathIn) count = 0 while (cap.isOpened()): ret, frame = cap.read() if ret == True: cv2.imwrite(os.path.join(pathOut, "frame_{:06d}.jpg".format(count)), frame) count += 1 else: break cap.release() cv2.destroyAllWindows() def main(): extractFrames('video.mp4', 'outputdir')
更新情報: 2021年5月に TensorFlow 2.5, OpenCV 4.5.1, Debian 11 Bullseyeに合わせて更新しプログラムを動作確認した ラズパイにUSBカメラを繋ぎ、Python 3上のOpenCVを用いて映像を取り込み、リアルタイムにTensorFlowで物体検出する手順です。Tensorflow HubのサンプルとTensorFlow Lite のサンプルを改変して用いて、それぞれ以下のような検出結果を表示します。ラズパイ依存部分は無いので、インテルCPUを積んだノードパソコンとかでも以下のプログラムは実は問題無く動作します(少なくともLinux稼働していれば~~(などといいつつ後半2つがインテルUbuntu 20.04で動作していなくて直せていない…😭)~~)。ARM特有の話として import cv2 をTensorFlow関連パッケージのimpo
はじめに 以前、Zig の Tensorflow Lite のライブラリを使って遊ぶ記事を書いた。 この記事内では、静止画の処理を行うために、STB ライブラリを用いた。 こうなると次は動画の処理を行いたくなるものだ。 ... ならば OpenCV を Zig から使えるようにしようではないか。 OpenCV の C バインディングを作る OpenCV は C++で書かれているので、Zig から関数を呼び出すには C バインディングを作る必要がある。 1から OpenCV の C バインディングを作るのは大変なので、 今回は同じ手法で C バインディングを実装して呼び出している gocv のコードを利用させていただくことにした。 これで、工数の半分以上が省けることになる。 Zig バインディングを作る この記事の執筆中ではまだ完成はしていない。 しかし、Web カメラの画像を取得して文字や
概要 アート作品の価値を可視化するシステムを作りたいと、福岡のアーティストの方より依頼があった。 アート作品をどれだけの人が、どのくらいの時間鑑賞したかをできるだけ安価なシステムで実現できないか検討した。 RaspberryPiをアート作品の前に設置し、OpenCVで顔検出した時間を累積することとした。 データ可視化サービスとしてAmbient(https://ambidata.io) を使った。 データのアップロードはRaspberryPiのWifi経由とした。 インターネットにカメラ映像は流れず、送信する数値データのみとすることにした。 福岡市のスタートアップ支援施設 FGN(https://growth-next.com) に設置し運用してみた様子。 用意するもの Raspberry Pi3 Model B (4でもおそらく大丈夫) Raspberry Pi用のケース Raspber
1 はじめに CX事業本部の平内(SIN)です。 OpenCVでは、背景差分という手法で、動くものだけを検出する作業がよく紹介されています。 今回は、店舗で商品の監視など場合などに、お客さんの伸ばした手や、人影などが、その監視にノイズとなって入ることを避けるため、「動かないもの」のみを撮影してみました。 商品のように数が増減するものは、監視の対象となりますので、背景差分のように、最初に完全な背景を設定するのではなく、前のフレームとの差分を確認しながら、「一定期間 動かないもの」を撮影するイメージです。 最初に、動作している様子を御覧ください。 左が、監視画面で、右は、普通のモニターです。手などが入ってきても、それは、無視されます。 2 差分検出 1つ前のフレームとの比較を行う場合、差分検出を単純化させるため、以下の処理としました。 フレーム画像をグレースケールに変換する 2つの画像の差分画
1 はじめに CX事業本部の平内(SIN)です。 前回、Amazon SageMaker(以下、SageMaker)の物体検出(組み込みアルゴリズム)を、SageMaker Neo(以下、Neo)で最適化して、Jetson Nanoで利用してみました。 今回は、イメージ分類(組み込みアルゴリズム)について、確認してみました。 最初に、動作を確認している様子です。GPUがフルに回っていますが、約0.1秒で推論できています。 2 モデル 使用したモデルは、下記で作成したものです。 17種類の商品を回転台に乗せて動画撮影したデータから、イメージ分類のモデルが作成されています。 3 SageMaker Neo 下記の諸元で、上記のモデルを最適化しています。 ジョブ名: ic-SYOHIN17-jetson-Nano-001(任意です) データ入力値: {"data": [1, 3, 224, 22
ここ二、三日ずっとプログラムを考えていて pyautoguiを使って、画像認識して クリックするプログラム あるサイトをスクレイピングするのに 今までは単純に要素を find elementで調べてクリックすれば よかったのだが 最近の仕様変更で クリックする対象が #shadow rootの中にネストされてしまい findできなくなってしまったのだ shadowの中から対象の要素を探す方法を ずうっと考えていたのだが それは諦めることにした できないことないような気もするが じゃあどうしたかというと 人間がその、オブジェクトを探してクリック するという挙動をプログラムにするしかないと そこで思いついたのが pyautoguiで 対象の画像をスクショして ペイントでトリミングして それをデスクトップに保存しておく pythonも一応3.10までバージョンアップし pyautoguiに必要な
はじめに こんにちは、リコーの @yomura_ です。 今回は RICOH THETA V に顔検出処理をさせてみました。 また、せっかくの 360° カメラなので、顔を検出した方向に応じて内蔵 LED の点灯色を変えるようにしてみました。 RICOH THETA プラグインについて THETA プラグインをご存じない方はこちらをご覧ください。 興味を持たれた方は Twitter のフォローと THETA プラグイン開発コミュニティ(Slack) への参加もよろしくお願いします。 準備 OpenCV 環境の準備 顔検出には画像処理ライブラリ OpenCV のバージョン 3.4.5 を使用しました。 THETA の中で OpenCV を動かすための環境は THETAの中でOpenCVを動かす【プレビューフレーム取得編】 の記事で詳しく紹介されています。今回はそちらの記事の環境とサンプルコー
DonutはOCRを使わないend-to-endの文書理解モデルです。 Vision Encoder Decoder Modelになっており、OCRエンジンに依存せずに視覚的な文書分類や情報抽出を高い精度で行うことができます。 Donutは日本語を含む4言語で学習されたモデルnaver-clova-ix/donut-baseが公開されており、日本語で何かしたいときにファインチューニングして使えそうだなと思っていました。 今回、AIキャラクターと一緒にノベルゲームをプレイするために、ノベルゲーム風画面の合成データセットでdonut-baseをファインチューニングしました。 以下を目標として作成しました。 <unk>になる漢字をvocabに追加して学習する 選択肢、名前、メッセージを別々に認識し、jsonを出力する SKIP、LOADなどのUIの文字、日付表示などを読み取らない ルビを無視する
Get started You can get started with MediaPipe Solutions by selecting any of the tasks listed in the left navigation tree, including vision, text, and audio tasks. If you need help setting up a development environment for use with MediaPipe Tasks, check out the setup guides for Android, web apps, and Python. Legacy solutions We have ended support for the MediaPipe Legacy Solutions listed below as
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く