'nlp' 태그의 글 목록

nlp 3

태태개발일지 - 자연어처리(역사, dense vector,skip-gram)

지난 글들을 요약하자면 이렇다. 언어 모델의 시초: 초기의 언어 모델은 문장의 확률을 구하기 위해 첫 단어부터 n번째 단어까지의 모든 연쇄 확률을 계산해야 했다.마르코프 가정의 도입: 하지만 문장이 길어질수록 계산량이 기하급수적으로 늘고 데이터 부족(희소성) 문제가 심각해져, 최근 N-1개의 단어만 참고하자는 N-gram 방식이 표준이 되었다.N-gram의 종류: 이에 따라 직전 단어 하나만 보는 바이그램(Bigram), 두 개를 보는 트라이그램(Trigram) 등 참고할 단어의 개수를 정하는 모델들이 발전했다.앙상블 기법: 모델의 성능을 높이기 위해 여러 N값을 가진 모델들을 섞어서 사용하는 보간(Interpolation) 방식이 발달했다.백오프(Back-off): 고차원 N-gram(예: 트라이그램)..

AI 2026.04.05

태태코딩 - 자연어처리(word-net, tf,df,idf,pmi)

자연어처리모델 단어의 의미를 정확하게 하는 것이 가장 중요하다. 유의어ex) happy & joyful반의어ex) hot & cold포함ex) rose [ flower다의어ex) mouse - 쥐, 기계 Lemmas각 단어를 대표하는 표제형ex) better,best => good 실제 LLM 자연어 처리할 때 명시적으로 사용하지는 않지만 tokenizer 시 사용한다고 한다. 유의,반의,포함,다의어 모두 긍정부정, 맥락 언어는 다양하다.그렇다면 자연어는 어떻게 처리하는가? WordNet 단어의 의미를 나타내기 위해 학자들이 만든 언어사전*문장이들어오면 각 단어가 wordnet을 통해서 여러가지 의미로 구분되고, 가장 빈번하게 나타나는 단어를 체택한다. 단점: 그냥 통계적인 기법이기 때문에, ..

AI 2026.03.28

태태개발일지 - 자연어처리(N-gram)

Language Model단어를 얻을 확률을 구하는 것 NLP의 궁극적인 task는 다음 단어가 올 확률을 구하는 것이다. 과거의 언어모델p(x) = p(x1)*p(x2|x1)*p(x3|X1,X2) => 한 단어의 확률을 예측할 때 전의 모든 단어의 확률을 곱하여 사용했다. rulep(xi) >=0모든 확률의 합은 =1[BOS]시 문장시작 [EOS]시 문장종료 모델의 역사before 2000s : n-gram 2000s-2018s: Rnns,Cnns 여러 task가 있었으면 각각 그에 맞게 만들었다.2018s-2022s: transformer(bert,gpt-2) bert라는 언어모델을 공개하였고, bert를 가져와서 재조정하여 쓸 수 있었다. 근간이 되는 model이 있고, 이를 미세조정하여 사용하..

AI 2026.03.21

태태개발일지, 티스토리챌린지, AI, spring, 경제기초, 주식, jpa, 회고, 직장인영어, 타일러, 리얼클래스, coding, 경제공부, java, 김영한, 오블완, 직장인영어공부, daily, 스누피, 태태코딩,

Today :
Yesterday :

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

nlp 3

티스토리툴바