본문 바로가기

AI10

how to random masking in Huggingface. 문장에 랜덤마스킹을 하고싶은데, 어떻게 하는지 기억이 안나서 찾은김에 기록하기로 했다. 아주 간단하다. transformer에서, DataCollatorForLanguageModeling을 임포트한다. 그 뒤 사용할 토크나이저와 mlm, mlm_probability(마스킹 비율), return_tensors(리턴할 텐서 타입)을 넣어주면 끝이다. # transformer import from transformers import DataCollatorForLanguageModeling, AutoTokenizer # 토크나이저 선언 tokenizer = AutoTokenizer.from_pretrained("klue/roberta-large") # DataCollator선언. mask_datacollator.. 2022. 11. 24.
오토인코더의 모든것. 임시저장하면 안올릴거 같아서 걍올림(1강까지만 작성) AUTOENCODER의 4가지 키워드 Unsupervised learning Manifold learning Generative model learning ML density estimation Autoencoder를 학습할 때: 학습 방법은 비지도 학습 방법을 따르며, -> Unsupervised learning Loss는 negative ML로 해석된다. -> ML density estimation 학습된 Autoencoder에서: 인코더는 차원 축소의 역할을 수행하며, -> Manifold learning 디코더는 생성 모델의 역할을 수행한다. -> Generative model learning 01. Revisit Deep Neural Netw.. 2022. 11. 23.
[수정중]Hidden Technical Debt in ML:논문 정리 2페이지 까지 완료 개요 머신러닝 시스템을 개발하고 배포하는 것은 쉽지만, 이를 유지하는 것은 어렵습니다. 그 이유는 “기술적 부채” 때문인데, 당신이 그 당시에 쉽고 빠른 코드를 작성하는 선택을 한다면, 그 선택이 나중에 문제를 일으킬 가능성이 매우 높다는 것을 의미합니다. 물론 이러한 기술적 부채가 반드시 나쁜것은 아닙니다. 기술적 부채 또한 재정적인 부채와 비슷하게, 전략적으로 기술적 부채를 가져야 할 필요가 있습니다.(지금 당장 서비스를 제공하기 위해) 그러나 빠르게 기술적 부채를 갚지 않으면, 문제는 점점 악화될 것입니다. 그리고 숨겨진 부채(hidden dept)는 우리의 눈을 피해 조용히 커지고 있기에 조심해야 합니다! ML 시스템은 기존의 기술적부채에 더해서, ML만의 특수한 기술적 부채를.. 2022. 11. 9.
MLOps에 대한 질문 몇가지. MLOPs는 왜 필요한걸까? 결과적으로 이야기하면, 기존의 DEVOPs로는 ML을 지속적으로 운영하기에 한계가 있기에 이를 보완하기 위해 생겨난 것이다. 그럼 DEVOPs는 뭘까? DEVOPs는 개발과 운영을 결합하고, 중복적인 작업을 자동화 함으로써, 유지보수, 확장, 개발등에서 드는 잠재비용을 줄이는 문화를 말한다. DEVOPs의 가장 핵심 룰은 기술적 부채를 줄이는 것이다.(내 생각임) 기술적 부채를 줄이면, 유지 보수에 많은 비용이 들지 않고, 확장성이 높고, 안정성 또한 높아진다. 그럼 기술적 부채는 뭔데? 아주 후려쳐서 말하면, 니가 지금 확장성이나 안정성등을 고려하지 않고, 당장 굴러가게만 짠 코드가, 너의 일주일치, 혹은 한달치 야근으로 돌아올수도 있다는 말이다. DEVOPs의 한계는(즉,.. 2022. 11. 7.