데이터를 요리조리

프리트레인2

한국어 임베딩 - 벡터가 어떻게 의미를 가지게 되는가 자연어 계산과 이해 임베딩은 자연어를 컴퓨터가 처리할 수 있는 숫자들의 나열인 벡터로 바꾼 결과이다. 컴퓨터는 임베딩을 계산/처리해 사람이 알아들을 수 있는 형태의 자연어로 출력한다. 그러면 임베딩에 자연어 의미를 어떻게 함축할 수 있을까. 그 비결은 자연어의 통계적 패턴 정보를 통째로 임베딩에 넣는 것이다. 자연어의 의미는 해당 언어 화자들이 실제 사용하는 일상 언어에서 드러나기 때문이다. 임베딩을 만들 때 쓰는 통계 정보는 크게 세 가지가 있다. 첫째는 문장에 어떤 단어가 (많이) 쓰였는지이고, 둘째는 단어가 어떤 순서로 등장하는지이며, 마지막으로는 문장에 어떤 단어가 같이 나타났는지와 관련된 정보다. 구분 백오브워즈 가정 언어 모델 분포 가정 내용 어떤 단어가 (많이) 쓰였는가 단어가 어떤 순서로 .. 딥러닝/NLP 2022. 9. 19.

한국어 임베딩 - 서론 임베딩이란 자연어 처리 분야에서 임베딩이란, 사람이 쓰는 자연어를 기계가 이해할 수 있는 숫자의 나열인 벡터로 바꾼 결과 혹은 그 일련의 과정 전체를 의미한다. 단어나 문장 각각을 벡터로 변환해 벡터 공간으로 '끼워 넣는다(embed)'는 의미에서 임베딩이라는 이름이 붙었다. 임베딩이라는 개념은 자연어 처리 분야에서 꽤 오래전부터 사용한 것으로 보인다. 하지만 본격적으로 통용되기 시작한 것은 딥러닝의 대부 요슈아 벤지오 연구 팀이「A Neural Probabilistic Language Model」(Bengio et al., 2003)을 발표하고 나서부터다. 임베딩의 역할 임베딩은 다음 역할을 수행할 수 있다. 단어 / 문장 간 관련도 계산 의미적 / 문법적 정보 함축 전이 학습 단어 / 문장 간 관련도.. 딥러닝/NLP 2022. 9. 19.

이전 1 다음

티스토리툴바