datacolator1 how to random masking in Huggingface. 문장에 랜덤마스킹을 하고싶은데, 어떻게 하는지 기억이 안나서 찾은김에 기록하기로 했다. 아주 간단하다. transformer에서, DataCollatorForLanguageModeling을 임포트한다. 그 뒤 사용할 토크나이저와 mlm, mlm_probability(마스킹 비율), return_tensors(리턴할 텐서 타입)을 넣어주면 끝이다. # transformer import from transformers import DataCollatorForLanguageModeling, AutoTokenizer # 토크나이저 선언 tokenizer = AutoTokenizer.from_pretrained("klue/roberta-large") # DataCollator선언. mask_datacollator.. 2022. 11. 24. 이전 1 다음