Рет қаралды 1,193
画像処理用のニューラルネットワークの2大アーキテクチャ、CNNとVisionTransformerを比較します。最近の技術についても紹介します。
どちらが強いかの判定もします(私の独断と偏見です。詳細内容の正しさはご容赦ください)
<出展>
・Masked Autoencoder:
arxiv.org/abs/2111.06377
・Swin-Transformer:
arxiv.org/abs/2103.14030
・CNNとVisionTransformerの融合(CoAtNet):
arxiv.org/abs/2106.04803
・高速なVisionTransformer(EfficientViT):
arxiv.org/abs/2205.14756
#ディープラーニング
#画像処理
#トランスフォーマー
#CNN
#transformer
#vit
#computervision
#deeplearning