SegmentAnything  ざっくり解説
11:03
画像処理 物体検出の基礎
20:42
画像処理 光沢について
12:38
Пікірлер
@wqh95n3m5
@wqh95n3m5 Ай бұрын
NNでどんな関数でも近似できることは知識としては知ってましたが、どうしてそうなるのか理解できました
@user-fv8zv5vw8r
@user-fv8zv5vw8r Ай бұрын
画像系のトランスフォーマーの教材を探していて、唯一見つかりました。大変勉強になります。本当にありがとうございます。ケーブルの事例が本当にわかりやすい
@patoru_patr
@patoru_patr Ай бұрын
イヤホンで聞いてると、マイクのボッボッって雑音がキツいです😢
@wqh95n3m5
@wqh95n3m5 Ай бұрын
数学的な説明聞いても分かった気になるだけだったのが、この動画だと腑に落ちるような理解ができて非常にありがたいです!!
@wqh95n3m5
@wqh95n3m5 Ай бұрын
数学的な理解よりもまずは直感的な理解をしたいので、このような動画は非常にありがたいです!!
@user-jt2ik9cp6b
@user-jt2ik9cp6b 2 ай бұрын
とても分かりやすい解説です。確認ですが物体検出についてはSSDのアルゴリズムというわけではなく、 物体検出のスタンダートな概念ってことでよろしいでしょうか?SSDは確かバウンディングボックスなどの概念があった気がします。
@VisionSensorChannel
@VisionSensorChannel 2 ай бұрын
コメントありがとうございます。おっしゃる通り、この動画はSSDに特化したものではなく、物体検出の基礎概念です。
@user-qk2gg7zp2o
@user-qk2gg7zp2o 2 ай бұрын
絵で解説してくれてめっちゃわかりやすい
@USBtybeA
@USBtybeA 2 ай бұрын
フーリエ変換
@toyoo_cat
@toyoo_cat 2 ай бұрын
万能な単一技術はないので、うまい組み会わせがポイントになるのですね。
@toyoo_cat
@toyoo_cat 2 ай бұрын
ステップバイステップで解りやすいですね。以前妻に原理を聞かれて説明に苦労したのですが、これなら解ってもらえそうです。
@shinsogayborg
@shinsogayborg 2 ай бұрын
すごくわかりやすいです。なんでクエリ キー バリューの3つが必要なのか意味がわかりました。
@UNKNOWN-tu8bc
@UNKNOWN-tu8bc 4 ай бұрын
内容は良いんだけど音声がひどすぎるw
@hightree0527
@hightree0527 4 ай бұрын
めちゃくちゃに分かりやすい‼️ ありがとうございます‼️
@tokyobay_fishing
@tokyobay_fishing 5 ай бұрын
大変勉強になります!トランスフォーマーのデメリットはあまり意識していませんでしたが納得の短所ですね!自然言語処理から興味を持ってたどり着いたのですが画像を文章として置き換えたら大変わかりやすい内容でした!
@user-lq1vy2yp8f
@user-lq1vy2yp8f 5 ай бұрын
人間の脳も刈り込みというプロセスがあるので最初は多量の脳細胞と結合が必要なのかもしれないですね
@AIxCE
@AIxCE 6 ай бұрын
非常にわかりやすかったです! ありがとうございます
@motorado1
@motorado1 6 ай бұрын
よく参考にさせて頂いています、わかりやすくて素晴らしいです! ただ、音声にボッ、、ボッ、、、というようなノイズが入っていてイヤホンで聴くと耳が痛いです、、、音を良くしてもらえると最高です
@toyoo_cat
@toyoo_cat 6 ай бұрын
学習データの作り方が難しそうですね。デジカメの撮影モード見たいな分類があれば上手く行きそうですね。階調分解能以下につぶれた暗部は復調できるでしょうか?
@VisionSensorChannel
@VisionSensorChannel 6 ай бұрын
この方法では、暗すぎて諧調以下につぶれてしまった部分の復元は難しいとおもいます。その場合はインペインティングの問題設定になるので、それを解けるモデルと学習データが要りそうです。
@aslan_peko
@aslan_peko 7 ай бұрын
最近見始めました。 大学で画像処理、認識を行っているのですがマジでわかりやすくて助かっています。 ゆくゆくはなんとなく使うからなんとなくでも解って使うになれるよう学ばさせていただきます!
@doggy9745
@doggy9745 7 ай бұрын
素晴らしい説明ありがとうございます。非常に助かります
@yuki1228
@yuki1228 7 ай бұрын
いつも画像処理の基礎からの説明で勉強になります.人に近い感覚を模倣するというのが間接的なアプローチで工学的に非常に面白いと感じました.
@toyoo_cat
@toyoo_cat 8 ай бұрын
いつも勉強になります。ありがとうございます。PSFに基づく方法は物理的には「復元」ですが、深層学習の方法は「復元、修正」と言うより「生成、創造、再構成」といったイメージを持ちます。目的が達成できていれば、どちらでもいい話かな😅?
@VisionSensorChannel
@VisionSensorChannel 8 ай бұрын
コメントありがとうございます。最近は拡散モデルによる画像生成技術の進歩がすさまじいので、ボケ修正にこれらを使う研究もでてきてます。このようなやり方が今後主流になるかもしれませんね
@CURRY_DE_DAIBAKUSHO
@CURRY_DE_DAIBAKUSHO 8 ай бұрын
わかりやすい…。ありがとうございます。
@companiontravelingkitsune
@companiontravelingkitsune 8 ай бұрын
めちゃめちゃいい動画だな
@sekiwada6528
@sekiwada6528 8 ай бұрын
トランスフォーマー導入検討していましたが エッジデバイスには向かないとの情報が参考になりました
@toyoo_cat
@toyoo_cat 8 ай бұрын
勉強になりました。ありがとうございます。ノイズの特性は撮像デバイスにょって異なることを考えると、Noise2Noiseは撮像デバイスのバリエーションも多彩にしなければ汎化レベルが上がらないと考えてよいでしょうか?
@user-jr8dd6qz5l
@user-jr8dd6qz5l 8 ай бұрын
Yolov8 について解説していただきたいです
@nanashi6184
@nanashi6184 8 ай бұрын
レナ (画像データ)は使用しないほうが良いのでは? 結構な問題になったような・・・
@inception9150
@inception9150 8 ай бұрын
大変すばらしい解説です。ありがとうございます。 ただし、下記のような基本的な事についてまだ分かっていないので、ご教授いただければ、幸いです。 Q1.CNNの場合はfilterが『局所的』だと言われたのですが、Transformerの場合は、元の画像を複数の小さい四角い領域(patch)に分割して処理の単位とされるので、結局『局所的』ではないか? Q2. CNNの場合は、訓練によってCNNのfilter係数を学習させるが、Transformerの場合は何を学習するの?という質問もありますね。   Q3. TransformerもNeuralNetworkの一種で考えて良いのでしょうか。そうであれば、バッチ単位で訓練を行うかと思いますが、訓練用のバッチ画像はみんな内容がだいたい同じの画像ですか、あるいは内容がまちまちで、例えばお互いに回転関係、移動関係のある画像同士を利用して混錬を行うのでしょうか。
@VisionSensorChannel
@VisionSensorChannel 8 ай бұрын
A1. 局所的か大局的かは、特徴抽出時に関係性を見る範囲の違いを表します。 1層のCNNでは、コンボリューションカーネル内のみでの、画素間の関係性を見ます。 Transformerでは、パッチ間の関係性を見ますが、パッチ間の距離の制約はありません。 A2. Transformerの中身は、MLPの集まりなので、それぞれのMLPの重みが学習対象になります A3. Transformerもミニバッチで学習します。また(回転などの)変換は内部のMLPの重みで決まります。MLP一つあたりの変換方法はミニバッチ内で同じですが、MLPがたくさんあるので、いろいろな変換が組み合わされた状態になります 学習では、これらのより良い組み合わせを決めるイメージです
@inception9150
@inception9150 8 ай бұрын
@@VisionSensorChannel 早速とても素晴らしいご教授本当にありがとうございます!  再度確認させていただきます。申し訳ございません。 画像関係のアプリケーションには4大種類があるかと思います: 1.Object認識・分類(人間か、車か) 2.指定したObjectの存在位置( 人間の居る場所と車の位置)特定(位置決め) 3.画像修復(inpainting, denoising) 4.訓練画像からこれまでのない画像生成ーーー人間の顔、シーン等(できればバラエティ性が富む)。 私がよく付き合ってきたのは画像修復アプリで、通常、画像トレニングする時に、CNN系の場合、訓練画像中の対象objectの位置を揃える必要あります(位置ずれに関する許容範囲に限界)。 そのための訓練画像のobject位置調整の仕事量は莫大です。 Transformerアーキテクチャーの場合、画像修復アプリのために、訓練画像においての対象objectの画像中の存在位置に関して気にならなくても宜しいでしょうか。 どんなご見解、アイディアでも宜しいです。いただければ幸いと思います。
@VisionSensorChannel
@VisionSensorChannel 8 ай бұрын
@@inception9150 画像修復はあまり詳しくありませんが、私が知っているAutoencoderと似たものだとすると、 学習時の位置ずれに対しての敏感さは、ネットワーク構造よりも損失関数に強く依存するとおもいます。 同じ損失関数ならば、CNNを使う場合とTransformerの場合ではさほど変わらないとおもいます 一方で、Transformerは画像パターンの知識を、CNNより多様かつ詳細に記憶できることが強みと言われています。 なので大量の学習画像を使って「事前学習」することがよく行われます。 そこからのアイデアですが、 様々な種類の物体を、様々な位置・姿勢に配置した大量の画像データを人工的に使って、Transformerを事前学習しておき、 アプリに応じた少量の画像でファインチューニングすることで、多少の位置ずれに対しても頑健な復元ができるようになるかもしれません
@inception9150
@inception9150 8 ай бұрын
@@VisionSensorChannel 貴重なご意見ありがとうございます。色々試したいですね。 現在の所謂『deep learning』的な方法は適切な訓練サンプルの準備作成は通常の会社にとって大きな負担ですね。 再度御礼を申し上げます。
@companiontravelingkitsune
@companiontravelingkitsune 8 ай бұрын
一番分かりやすい
@user-bo8wu5ph7b
@user-bo8wu5ph7b 9 ай бұрын
インスタンスセグメンテーションの各手法の特徴について、判り易くまとめていただいたていて助かりました。有り難うございます。
@pattosaideria
@pattosaideria 10 ай бұрын
説明はわかりやすかったですが、音声がちょっと小さすぎですね。。
@hidsak7042
@hidsak7042 11 ай бұрын
このDNNやアルゴリズムの背後にある考え方/概念が大変分かり易くて、非常に有益でした! (巷にある情報は、単なる構造の説明や浅い概念に終始しているケースが多いので) 次は、画像スタイル変換やGANについても噛み砕いて解説して頂けると嬉しいです。
@inception9150
@inception9150 Жыл бұрын
ここで紹介されてる画像処理のためのTransformerのやり方は自然言語翻訳のためのTransformerのやり方とロジック的に違うような感じです。 自然言語翻訳のためのTransformerの場合、各tokenのQueryが同一tokenのKey及び他のtokenのKeyとの内積結果をsoftMax変換して、その結果をweight としてtoken同士のvalueの加重平均計算に利用されます。同じtokenから算出したweight同士を足し算する事はありません=それはナンセンスからです。 従って、ここで紹介されてるような一つのpatchが同一patchのKeyや他のpatchのKeyとの内積に対して和を取って、その『帰一化』した値を同じ位置のpatchに掛ける操作の意味は不明です。 このようなやり方は画像の生成ではなくて、各patch画像の輝度を調整する操作に過ぎません。 この辺詳しい方にご説明いただければ幸いです。
@companiontravelingkitsune
@companiontravelingkitsune 8 ай бұрын
4:00あたりの操作が意味不明ということですか?
@inception9150
@inception9150 8 ай бұрын
@@companiontravelingkitsune ご質問ありがとうございます。 正確に5:30あたりです。 そして、CNNの場合はfilterが『局所的』だと言われたのですが、 Transformerの場合は、元の画像を複数の小さい四角い領域(patch)に分割して処理の単位とされるので、 結局『局所的』ではないかという不明な点もあります。 更にCNNの場合は、訓練によってCNNのfilter係数を学習させるが、Transformerの場合は何を学習するの?という質問もありますね。  アディアやご意見あれば議論したいと思います。
@companiontravelingkitsune
@companiontravelingkitsune 8 ай бұрын
各パッチ同士の内積をとるので、大域的な特徴を捉えていると言われているのではありませんか?
@companiontravelingkitsune
@companiontravelingkitsune 8 ай бұрын
@@inception9150 「同じtoken~ナンセンスだから」のところは、説明で使われているマス目(マトリクス?表?)でいうところの対角成分は意味がない、ということですか?
@inception9150
@inception9150 8 ай бұрын
@@companiontravelingkitsune 言語翻訳の場合翻訳先を決めるために言語のcontextにおいて 前後のtokenの相関係数×対応の各関連tokenの後、その和を取りますが、このKZfaqの中では相関係数の和を取って同一tokenをかけて結果とします。統計分野と工学分野において、このような計算方法はありえないだと思います。
@shuns1044
@shuns1044 Жыл бұрын
この動画の資料を会社の勉強会で使用したいのですが、切り取って使ってもいいですか?
@VisionSensorChannel
@VisionSensorChannel Жыл бұрын
お役に立てればお使いください
@inception9150
@inception9150 Жыл бұрын
@@VisionSensorChannel Transform紹介動画本当にありがとうございます! ただ、疑問または不明な点がありますので、ご解釈いただければ大変助かります。 紹介されてる画像処理のためのTransformerのやり方は自然言語翻訳のためのTransformerのやり方とロジック的に違うような感じです。 自然言語翻訳のためのTransformerの場合、各tokenのQueryが同一tokenのKey及び他のtokenのKeyとの内積結果をsoftMax変換して、その結果をweight としてtoken同士のvalueの加重平均計算に利用されます。同じtokenから算出したweight同士を足し算する事はありません=それはナンセンスからです。 従って、ここで紹介されてるような一つのpatchが同一patchのKeyや他のpatchのKeyとの内積に対して和を取って、その『帰一化』した値を同じ位置のpatchに掛ける操作の意味は不明です。 このようなやり方は画像の生成ではなくて、各patch画像の輝度を調整する操作に過ぎません。 なので、無意味ではと思いますが、、、是非ご教授お願いします。
@VisionSensorChannel
@VisionSensorChannel Жыл бұрын
ご質問ありがとうございます。 自然言語処理と同じく、valueと重み(ここで言っているアテンションマップ)の内積をとるのが正しい手順になります。 概念的な解説を心掛けたため、詳細内容としては説明抜けや間違いがあるかもしれません。 より詳しい解説としては、以下のサイトなどを同時にご覧いただくことをお勧めします cvml-expertguide.net/terms/dl/seq2seq-translation/transformer/multi-head-attention/
@inception9150
@inception9150 Жыл бұрын
@@VisionSensorChannel 早速ご返答ありがとうございます。ご案内頂いたサイトを勉強させていただきます。
@user-zo4kz9xz2i
@user-zo4kz9xz2i Жыл бұрын
横から失礼いたします. 本動画ではわかりやすさのため入力画像と同じ5x5パッチと同じサイズのフィルタを得て互いの内積をとることでattentionを行うと説明されていますが,実際には図の説明から25x25になります.これを線形変換後のValue (サイズは25xW_outとする)との内積をとり,最終的にValueと同じ25xW_outサイズを持ち,特定の領域が強調されたattentioned valueを得ます.その後は説明の通りMulti-headによるattention valueの縦結合+線形変換により最終的な出力(これはTransformer論文のモデル図のadd&Normブロックを見てもわかりますが,skip connectionを適用するため,線形変換前=25xW_inのサイズとなる)を得ます. 概念的にはこちらの動画でなにも問題なく,NLPでのTransformerと同様の説明となっていると理解しています. こちらの動画も参照されるとよいかと思います. kzfaq.info/get/bejne/o7ORZbOevrDQc6M.html
@namesan1718
@namesan1718 Жыл бұрын
大変分かりやすい解説動画を作っていただき、ありがとうございます!とても勉強になります😆
@toyoo_cat
@toyoo_cat Жыл бұрын
わかりやすくて勉強になります。ジグソーパズルのピースを探すようなイメージに見えます。どことも似ている所は情報量低く、どことも似ていないところは情報量高い(注目点)というイメージでよいでしょうか?
@ayatsukiluna7608
@ayatsukiluna7608 Жыл бұрын
更新が続いていて嬉しいです。とても勉強になります。
@user-pq6ue7tq9n
@user-pq6ue7tq9n Жыл бұрын
画像認識機械学習初心者です アテンション機構の仕組み、動画で説明が見れることありがたいです😄 ポジションエンコーディングとMLP部分についての説明もぜひ動画で見たいです!
@310ksk6
@310ksk6 Жыл бұрын
CNNとの比較でアテンションとトランスフォーマーを解説しているのがわかりやすかったです!
@toyoo_cat
@toyoo_cat Жыл бұрын
力づく感を感じます😅。言語と画像の対応付けは文化的な差が出やすいので、バイアス問題への対応がより大変ですね。それも力技でなんとかなる時代が来るのかな?
@VisionSensorChannel
@VisionSensorChannel Жыл бұрын
コメントありがとうございます。 たしかに力押しですね。 お金を持っているところは強いですね。
@ayatsukiluna7608
@ayatsukiluna7608 Жыл бұрын
すごくわかりやすい!
@VisionSensorChannel
@VisionSensorChannel Жыл бұрын
ありがとうございます。励みになります。
@sakuraikeizo
@sakuraikeizo Жыл бұрын
画像を使っているので、非常に分かり易い説明です。ありがとうございました。
@pubgmobiletrailers2998
@pubgmobiletrailers2998 Жыл бұрын
Нет
@toyoo_cat
@toyoo_cat Жыл бұрын
手法の分類観点、特徴まとめが初学者には大変勉強になります。😄
@rrinn1234
@rrinn1234 Жыл бұрын
わかりやすい!
@kohei4520
@kohei4520 Жыл бұрын
もっとたくさん動画出してほしいです。素晴らしい内容。
@VisionSensorChannel
@VisionSensorChannel Жыл бұрын
ありがとうございます。がんばります!
@toyoo_cat
@toyoo_cat Жыл бұрын
概念がつかみやすい解説ありがとうございます👍 稚拙な疑問で恐縮ですが、教えてください。 ・ラベルなしとラベルありのデータの割合がどの程度あれば半教師あり学習は有効に機能するでしょうか? ・損失関数は複数の評価指標を重み付き加算することが多いようです。ディメンジョンの異なる指標を加算する物理的意味や、加算であっても多目的(多変量)最適化が実現できるのはなぜでしょう? 損失関数の特性や損失関数の組み合わせについても解説動画を作成いただけると嬉しいです。
@VisionSensorChannel
@VisionSensorChannel Жыл бұрын
ご意見ありがとうございます。 ・ラベルなしとラベルありの割合は、分類問題の難しさで変わってきます。参考文献として上げている「FixMatch」では10クラスの一般物体分類にて、ラベルありが各クラス1枚ずつでも学習できますが、どの画像を選ぶかで大変性能がばらつくようです。 ・損失関数についてはあまり詳しくありませんが、重み付き加算がよく使われることに物理的な意味があるとは思えないですね。剰余算やべき乗と比べて値の変化が緩やかで調整がやりやすいいからだとおもいます。
@toyoo_cat
@toyoo_cat 2 жыл бұрын
いつも平易な解説ありがとうございます。いきなり論文を読んでも挫折しますが、先に概念をを知っていれば理解が進みます。また、既存技術との対比で概念を解説いただくと狙いや違いがわかりやすくて助かります。
@toyoo_cat
@toyoo_cat 2 жыл бұрын
平易かつ要点を押さえた解説で勉強になりました。