반응형

Ngram 2

태태코딩 - 자연어처리(word-net, tf,df,idf,pmi)

자연어처리모델 단어의 의미를 정확하게 하는 것이 가장 중요하다. 유의어ex) happy & joyful반의어ex) hot & cold포함ex) rose [ flower다의어ex) mouse - 쥐, 기계 Lemmas각 단어를 대표하는 표제형ex) better,best => good 실제 LLM 자연어 처리할 때 명시적으로 사용하지는 않지만 tokenizer 시 사용한다고 한다. 유의,반의,포함,다의어 모두 긍정부정, 맥락 언어는 다양하다.그렇다면 자연어는 어떻게 처리하는가? WordNet 단어의 의미를 나타내기 위해 학자들이 만든 언어사전*문장이들어오면 각 단어가 wordnet을 통해서 여러가지 의미로 구분되고, 가장 빈번하게 나타나는 단어를 체택한다. 단점: 그냥 통계적인 기법이기 때문에, ..

AI 2026.03.28

태태개발일지 - 자연어처리(N-gram)

Language Model단어를 얻을 확률을 구하는 것 NLP의 궁극적인 task는 다음 단어가 올 확률을 구하는 것이다. 과거의 언어모델p(x) = p(x1)*p(x2|x1)*p(x3|X1,X2) => 한 단어의 확률을 예측할 때 전의 모든 단어의 확률을 곱하여 사용했다. rulep(xi) >=0모든 확률의 합은 =1[BOS]시 문장시작 [EOS]시 문장종료 모델의 역사before 2000s : n-gram 2000s-2018s: Rnns,Cnns 여러 task가 있었으면 각각 그에 맞게 만들었다.2018s-2022s: transformer(bert,gpt-2) bert라는 언어모델을 공개하였고, bert를 가져와서 재조정하여 쓸 수 있었다. 근간이 되는 model이 있고, 이를 미세조정하여 사용하..

AI 2026.03.21
반응형