자연어처리모델 단어의 의미를 정확하게 하는 것이 가장 중요하다. 유의어ex) happy & joyful반의어ex) hot & cold포함ex) rose [ flower다의어ex) mouse - 쥐, 기계 Lemmas각 단어를 대표하는 표제형ex) better,best => good 실제 LLM 자연어 처리할 때 명시적으로 사용하지는 않지만 tokenizer 시 사용한다고 한다. 유의,반의,포함,다의어 모두 긍정부정, 맥락 언어는 다양하다.그렇다면 자연어는 어떻게 처리하는가? WordNet 단어의 의미를 나타내기 위해 학자들이 만든 언어사전*문장이들어오면 각 단어가 wordnet을 통해서 여러가지 의미로 구분되고, 가장 빈번하게 나타나는 단어를 체택한다. 단점: 그냥 통계적인 기법이기 때문에, ..