BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain

## 公開日
2017-08-22

## 1. 概要
Deep learningは各分野で成果を出しているが、計算リソースが必要になるため、クラウド上で学習するサービス（MLaaS）がある。また、既存のモデルを利用したり、転移学習させることでコストを下げる方法があり、アウトソーシングが主流になりつつある。だが、学習時にバックドアをネットワークに仕込むことができ、通常のテストケースでは何も問題がないものの、特定のトリガーを入力させることで誤識別させることができる。これをBadNetsと呼ぶ。
## 2. 新規性・差分

## 3. 手法
### outsourced training attack
モデルの形とデータセットをクラウドに投げて、学習結果のパラメータを受け取る場合を考える。

#### BadNetsモデルの条件:
- val accを低下させてはいけない(val dataは未知)
- トリガーを入力したとき、正常に訓練したモデルとは異なる予測を出力する（標的型・非標的型の２パターンある）

### transfer learning attack
ユーザが悪意を持って学習されたモデルをダウンロードして、転移学習する場合を考える。

#### BadNetsモデルの条件:
- 新しいアプリケーションに対して設定されたユーザのval accが高くなければならない
- トリガーを入力したとき、正常に訓練したモデルとは異なる予測を出力する

どちらにせよ、学習データにトリガーとなるデータを仕込むことによってバックドアを作成する。

## 4. 結果
### MNIST
以下のようなデータを混ぜた

![x2](https://user-images.githubusercontent.com/10243885/41815533-1bf8fa5e-77a9-11e8-92fe-88fdbd5c1009.png)

結果、すごいいい感じに間違えていて、標的型のバックドアを仕込めていると言える。
![x3](https://user-images.githubusercontent.com/10243885/41815544-42277ade-77a9-11e8-9d50-0b515b2e5b7b.png)

悪意のあるデータは、全体の10%くらいでうまくいく。

### Transfer learning
転移学習の場合は以下のようになる。（道路標識の識別）
![tlexp](https://user-images.githubusercontent.com/10243885/41815582-4d1629a8-77aa-11e8-9165-3c809e714c5a.png)

いい感じに間違えさせられていて、以下のようにconv5のactivationを可視化させたら、backdoorの発火するポイントがわかる。

![x8](https://user-images.githubusercontent.com/10243885/41815598-c733bc28-77aa-11e8-929a-cfc14db6fffb.png)

（他にも結果はいっぱいあるので気になる方は論文見てください）

## 5. 議論
DNNのバックドアを検出する技術を研究する必要がある。

## 6. コメント
防御手法もちゃんと提案してくれ…

## 論文情報・リンク
https://arxiv.org/pdf/1708.06733v1.pdf

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain #3

公開日

1. 概要

2. 新規性・差分

3. 手法

outsourced training attack

BadNetsモデルの条件:

transfer learning attack

BadNetsモデルの条件:

4. 結果

MNIST

Transfer learning

5. 議論

6. コメント

論文情報・リンク

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain #3

Description

公開日

1. 概要

2. 新規性・差分

3. 手法

outsourced training attack

BadNetsモデルの条件:

transfer learning attack

BadNetsモデルの条件:

4. 結果

MNIST

Transfer learning

5. 議論

6. コメント

論文情報・リンク

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions