AI hub์ ๊ฐ์ฑ ๋ํ ๋ง๋ญ์น ์ฌ์ฉ
AI์ ์ฌ๋์ ๋ํ ๋ฐ์ดํฐ๋ก ์ด 6๊ฐ์ ๋๋ถ๋ฅ ๊ฐ์ (๋ถ๋ ธ, ์ฌํ, ๋ถ์, ์์ฒ, ๋นํฉ, ๊ธฐ์จ)์์ 60๊ฐ์ ์๋ถ๋ฅ ๊ฐ์ ์ด ์์.
๊ฐ ๊ฐ์ ์ ๋ฐ๋ฅธ ๋ฐ์ดํฐ๊ฐ ๊ณ ๋ฅด๊ฒ ๋ถํฌ ๋์ด ์์.
์ํ์ ์์ ์ถ์ฒ์ ์ํด ์์ฒ ๊ฐ์ ์ ์ญ์ ํจ
๋ํ ์ค ์ธ๊ณต์ง๋ฅ์ ๋๋ต์ ์ญ์ ํ๊ณ ์ฌ๋์ ๋ฐํ๋ง ์ ์ฅ
์ฌ๋์ ๋ฐํ ์ค ๋ฌธ์์ ํด๋นํ์ง ์๋ ๋ถ๋ถ์ regex๋ก ์ญ์
์ดํ ๊ฐ์ ์ซ์ ์ธ๋ฑ์ค๋ก ๋ณํ
koNLPy์ Okt, Komoran, Hannanum ์ฌ์ฉํด์ ๊ฐ ์ฑ๋ฅ ๋น๊ต.
Stopwords ์ ๊ฑฐ๋ ๋งํฌ์ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์งํ.
Stopwords๋ฅผ ํํ์ ๋ถ์์ ํตํด ์กฐ์ฌ, ์ด๋ฏธ๋ฑ์ ์ญ์ ํด์คฌ์ผ๋ ์ ๋ฐ์ดํฐ ๋ณด๋ค ์ฑ๋ฅ์ด ๋จ์ด์ ธ์ ์ฌ์ฉํ์ง ์์.
Best Valid Accuracy
-
Hannanum :0.6716
-
Komoran :0.6699
-
Okt :0.6636
bert-base-multilingual-cased์ tokenizer์ classfication model์ฌ์ฉ.
optimizer๋ Adam์ผ๋ก ์งํ.
์ฑ๋ฅ์ ๋์์ง ์์๋ฐ 1epoch๋น ํ ์๊ฐ์ด ์์๋ผ ์ฌ์ฉํ์ง ์์๋ค.
์ต์ข ์ฌ์ฉ ๋ชจ๋ธ.
๊ธฐ๋ณธ bert tokenizer ์ฌ์ฉ.
max-len์ด ๋ณดํต 80์ดํ๋ก ๋๊ฒจ์ 80์ดํ๋ก ํ์ตํ๋ acc๋ ์ข์์ง๋ง ์ค ์ ์ฉ์์ ์ฒด๊ฐ์ ์ฑ๋ฅ์ด ๋จ์ด์ ธ 200์ผ๋ก ๋๋ ค์ ํ์ต์ํด. ์ด ๋ถ๋ถ์ ์์ด์๋ ์ถ๊ฐ ๋ฐ์ดํฐ ํ๋ณด ํ์
Best Valid Accuracy : 0.7485

Large Movie Review Dataset ์ฌ์ฉ
์ํ์ ๊ฐ์ ์ ์ฐ๊ด์ง์ ์ ์๋ ๋ฐฉ๋ฒ์ ๋ฆฌ๋ทฐ์์ ์ฐพ์.
hugging face์์ ์ ๊ณตํ๋ emotion dataset์ผ๋ก ํ์ต์ํจ ํ review๋ก ์ถ๋ก ํด ๊ฐ ๊ฐ์ ๋น ๊ฐ์ ์ ๋๋ ์ฌ๋์ด ๋ง์ ๊ฐ์ ์ ํด๋น ์ํ๋ค์ ๋งค์น
-
์ํ ๋ฆฌ๋ทฐ, ์ํ ์์ด๋๋ก ์ด๋ฃจ์ด์ง sent table
-
๊ฐ๋ , ๋ฐฐ์ฐ ์์ด๋ crew table
-
๊ฐ๋ , ๋ฐฐ์ฐ์ ์ด๋ฆ์ด ๋งค์น๋๋ name table
-
์ํ ์์ด๋, ์ํ ์ ๋ชฉ, ์ํ ๊ฐ๋ด๋ ๋๋ก ๊ตฌ์ฑ๋ title table
sent table๋ก ์ถ๋ก ํ ๋ชจ๋ table์ id concatํด ์ํ ์ ๋ชฉ, ๊ฐ๋ ์ ๋ฐ์์ค๋ฉฐ ์ํ์ ์ฐ๋๊ฐ 90๋ ๋ ์ด์์ ์ํ๋ง ๋ฐ์์ค๋๋ก ์ฒ๋ฆฌ.
Hugging face์ ๊ณต๊ฐ๋ DistilBERT ์ฌ์ฉ
https://sites.tufts.edu/eeseniordesignhandbook/2015/music-mood-classification/๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ถ๋ฅ
Spotify์์ ์ ๊ณตํ๋ ์ฌ๋ฌ ์์ ์์๋ฅผ ๊ฐ์ง๊ณ Happy, Sad, Calm์ ๊ฐ์ ์ ๊ตฌ๋ถ ํ๋ ํ์ต ์งํ
ํ์ต ๋ฐ์ดํฐ๋ https://github.com/cristobalvch/Spotify-Machine-Learning์ data_moods.csv๋ก ์งํํ์ผ๋ฉฐ ์ถ๋ก ์ spotify์ ํ๊ตญ playlist uri๋ฅผ ๊ฐ์ ธ์ ์งํํ๋ค.
Keras์์ ์ ๊ณตํ๋ classifier ์ฌ์ฉ.
platform : AWS EC2
S3์ ํ์ต๋ ๋ชจ๋ธ ํ์ผ ์ฌ๋ ค์ AWS cliํ์ฉํด ๋ค์ด๋ก๋ ํ inference.
ํ๋ฆฌํฐ์ด์ธ micro์ฌ์ฉ์ ๋ชจ๋ธ ๋ก๋ฉ๋ถํฐ ํ๋ก์ธ์ค๊ฐ ์ฃฝ์ด๋ฒ๋ฆฌ๋ ๊ด๊ณ๋ก t2.Large ์ฌ์ฉ.
๊ฐ์ ์ ๊ณต์ ๊ฐ ๋ชฉ์ ์ธ ๋งํผ ์ ์ ์ ๋๋ต์ ์ ๋ณด(๋์ด๋, ์ฑ๋ณ, ์ง์ญ ๋ฑ)๊ณผ ๊ฐ์ ์ ๋งค์นํด ๋ค๋ฅธ ์ ์ ์ค ๋์ ๋์ผํ ๊ฐ์ ์ ๋๋ผ๋ ์ ์ ๋ค์ด ์ด์ฉํ ์ฝํ ์ธ ๋ฅผ ์ถ์ฒํ ์ ์์ด์ผ ํ๋ค.
๋ฐ๋ผ์ ํ์ฌ ์ฝํ ์ธ ์์ feedback์ ๋ฐ์ ๋ฐ์ดํฐ๋ฅผ ์์งํ ๋ค์ ์์ ํ ์ถ์ฒ์์คํ ๋ชจ๋ธ๋ก ๋ฐ๊ฟ์ผํ๋ค.
๋ํ, BERT์ ๊ฒฝ์ฐ ๋ฌด๊ฑฐ์ด ํธ์ด๋ผ ์ถ๋ก ์ ์๊ฐ์ด ๊ฑธ๋ฆฌ๋ฏ๋ก feature engineering๊ณผ ๋ฐ์ดํฐ ์ถ๊ฐ ์์ง์ ํตํด ์ต๋ํ ์ฑ๋ฅ์ ๋์ด์ฌ๋ฆฌ๋ฉฐ ๊ฐ๋ฒผ์ด ML๋ชจ๋ธ๋ก ๊ต์ฒดํด์ผํ๋ค.


