河正宇给自己合作过的明星们起的有趣的昵称:
给金泰梨(김태리)起的是 태리야끼 taeriyaki
给暻秀(도경수)起的是 레경수 Re Kyungsoo
(Do Re Mi Fa So La的Re,因为暻秀是个歌手)
金香奇(김향기)起的是 김냄새 紫菜味(因为名字是香气的意思)
裴秀智(배수지) 배회장님 裴会长(因为一起出去的时候总是秀智付钱)
给金泰梨(김태리)起的是 태리야끼 taeriyaki
给暻秀(도경수)起的是 레경수 Re Kyungsoo
(Do Re Mi Fa So La的Re,因为暻秀是个歌手)
金香奇(김향기)起的是 김냄새 紫菜味(因为名字是香气的意思)
裴秀智(배수지) 배회장님 裴会长(因为一起出去的时候总是秀智付钱)
- 일반적으로 Large model이 성능이 좋다. 하지만 너무 크면 오히려 성능이 떨어진다.
- 또한, Model이 점점 커질수록 Memory Limitation 이슈가 있고 Training Time 등이 너무 커진다.
- ALBERT에서는 Factorized Embedding parameterization을 사용해서 Embedding의 ( V X H )의 크기를 (V x E) + (E x H) 형태로 바꾸어 parameter수를 줄인다.
- Cross-layer parameter sharing 방법을 사용해서 Layer간 같은 Parameter를 공유하는 방법을 사용한다. 이것을 사용하면 마찬가지로 파라미터 수를 줄일 수 있다.
- 부가적으로 NSP 방법을 사용하지 않고(RoBERTa에서 지적한 문제점) SOP (Sentence-Order Prediction)을 사용한다.
- 결과적으로 BERT의 70% 정도 파라미터를 사용해서(ALBERT-Large의 경우 BERT LARGE보다 18배 적다) 더 좋은 모델도 만들 수 있으며 방법에 따라 속도 차이도 2배 이상 나게 된다.
그 외에도 Dropout을 사용하지 않을 때의 더 좋은 성능 등등 다양한 내용이 쓰여져 있다.
이 논문의 흥미로운 점은 아무래도 역시 ‘경량화’이지 않을까 싶다.
本天才看完之后 整理的资料 .... [笑cry]
- 또한, Model이 점점 커질수록 Memory Limitation 이슈가 있고 Training Time 등이 너무 커진다.
- ALBERT에서는 Factorized Embedding parameterization을 사용해서 Embedding의 ( V X H )의 크기를 (V x E) + (E x H) 형태로 바꾸어 parameter수를 줄인다.
- Cross-layer parameter sharing 방법을 사용해서 Layer간 같은 Parameter를 공유하는 방법을 사용한다. 이것을 사용하면 마찬가지로 파라미터 수를 줄일 수 있다.
- 부가적으로 NSP 방법을 사용하지 않고(RoBERTa에서 지적한 문제점) SOP (Sentence-Order Prediction)을 사용한다.
- 결과적으로 BERT의 70% 정도 파라미터를 사용해서(ALBERT-Large의 경우 BERT LARGE보다 18배 적다) 더 좋은 모델도 만들 수 있으며 방법에 따라 속도 차이도 2배 이상 나게 된다.
그 외에도 Dropout을 사용하지 않을 때의 더 좋은 성능 등등 다양한 내용이 쓰여져 있다.
이 논문의 흥미로운 점은 아무래도 역시 ‘경량화’이지 않을까 싶다.
本天才看完之后 整理的资料 .... [笑cry]
#EXO[超话]#你严谨善良,你是直男杀手也是我们可爱的小甜豆,你厨艺惊人,你是演艺道路上的一颗闪闪发亮的星星,你为人正直,D.O.就是这样的你慢慢的走进了我的心里,还有十三天我们就能在次相见了,今年是爱丽陪你过的第九个生日,希望我们的小甜豆能越来越帅气。D.O.今天你28岁了,爱丽希望你退伍以后能以崭新的面孔去涉及更多的领域,取得更多的成就,期待退伍后的你。你说过:不会因为自己的行程而耽误组合的行程,这样的你让我们心疼。九年里你带给了我们太多惊喜,你学会了表演,也通过自己的努力在演员的道路上有了很大的成就。最后希望我们的主唱大人唱歌越来越好听,演技越来越好。D.O.感谢你出现在我的生命里,感谢你成为了我生命里重要的人之一,你性格极好,你善良单纯,你一直保留着一颗感恩的初心祝:我们主唱大人D.O岁生日快乐!도경수 생일 축하합니다
✋热门推荐