데이터를 요리조리

분류 전체보기59

[책] 데이터로 말한다! 퍼포먼스 마케팅 리뷰 2015년부터 지난 6년간 디지털 마케팅에 있어 가장 핵심이 된 마케팅 기법은 바로 ‘퍼포먼스 마케팅’이었다. 퍼포먼스 마케팅은 말 그대로 ‘성과’를 만들어내는 마케팅이다. 미디어커머스 기업은 데이터를 기반으로 광고를 운영하고 효율적으로 비용을 관리하는 퍼포먼스 마케팅이라는 경쟁적 차별점을 바탕으로 시장에서 상당한 인기를 끌었다. 한동안 업계에서 퍼포먼스 마케터 몸값이 치솟았던 이유도 바로 퍼포먼스 마케터가 이 대박 콘텐츠를 찾는 공식을 학습한 경험자였기 때문이다. 미디어커머스 기업들은 다양한 테스트를 통해 최적의 광고 소재, 즉 대박을 낼 수 있는 콘텐츠를 찾아왔고, 퍼포먼스 마케팅은 축적된 경험이 바로 경쟁력이다. 왜냐하면 누가 얼만큼의 광고 수행을 해봤느냐가 곧 얼마나 많은 ‘이기는 전략'을 가지고.. 서평 2022. 12. 29.

[논문] GPT-1 리뷰 BERT와 GPT는 각각 Google과 OpenAI에서 만든 자연어 모델이다. BERT는 트랜스포머의 인코더를, GPT는 트랜스포머의 디코더를 분리해 각각 독자적인 모델로 발전시켰고, 이 둘은 현재까지도 자연어 처리 분야를 양분하고 있으며 그 파생 모델들이 뛰어난 활약을 하고 있다. 따라서 LLM 시대의 서막을 연 GPT-1에 대해 알아보고자 한다. Abstract 자연어 이해는 자연어 추론, 질의 응답, 문서 분류 등 광범위한 다양한 작업으로 구성된다. 그러나 레이블이 없는 텍스트 말뭉치는 풍부하지만 특정 작업(target task)을 학습하기 위한 레이블이 지정된 데이터는 부족하여 각각의 태스크에 파인 튜닝을 적절하게 수행하기 어려웠다. 따라서 레이블이 없는 텍스트의 다양한 말뭉치에서 언어 모델을 프.. 딥러닝/NLP 2022. 12. 12.

[책] 적정 소프트웨어 아키텍처 스타트업에서의 개발은 초기의 시스템의 설계를 완벽하게 하여 개발을 시작하기 보다는, 당장에 결과물을 보여줘야 하는 경우가 많다. 시간이 지나면서 이러한 시스템을 만든 개발자는 이 시스템에 대해 점점 더 잘 이해하게 된다. 처음에는 시스템에 관한 지식이나 이해가 부족할 수 밖에 없다가 코드가 최상의 설계를 기반으로 하지 않는다는 사실을 인식했을 때 코드를 리팩토링하여 유지 관리할 수 있어야 한다. 여기서 말하는 바는 두 가지이다. 설계는 프로세스의 앞부분에서만 진행하는 작업이 아니다. 최선의 선택을 하려면 프로젝트 앞부분에 미리 시간을 투자하는 편이 합리적이지만, 프로젝트 시작 후에도 시간을 할애해야 한다. 실패 리스크 때문에 아키텍처 리팩토링을 해야할 수 있다. 구현을 완료할 때 쯤이면 거의 모든 시스템.. 서평 2022. 11. 26.

BERT 활용하기 사전 학습된 BERT 모델 탐색 BERT를 처음부터 사전 학습 시키는 것은 계산 비용이 많이 든다. 따라서 사전 학습된 공개 BERT 모델을 다운로드해 사용하는게 효과적이다. 사전 학습된 모델은 BERT-uncased 및 BERT-cased 형식으로도 제공된다. BERT-uncased 에서는 모든 토큰이 소문자이지만 BERT-cased 에서는 토큰에 대해 소문자화를 하지 않은 상태로 학습을 진행한 모델이다. 대소문자를 보존해야 하는 개체명 인식(Named Entity Recognition)과 같은 특정 작업을 수행하는 경우 BERT-cased 모델을 사용해야 한다. 이와 함께 구글은 전체 단어 마스킹(WWM) 방법을 사용해 사전 학습된 BERT 모델도 공개했다. 사전 학습된 모델을 다음 두 가지 방법으로.. 딥러닝/NLP 2022. 11. 19.

BERT 정리 Introduce BERT(Bidirectional Encoding Representation from Transformer)는 구글에서 발표한 임베딩 모델이다. 질의 응답, 텍스트 분류, 정보 추출 등과 같은 태스크에서 가장 좋은 성능을 도출해 자연어 처리 분야에 크게 기여해왔다. BERT가 성공한 주된 이유는 문맥이 없는 Word2Vec과 같은 다른 인기 있는 임베딩 모델과 달리 문맥을 고려한 임베딩 모델이기 때문이다. A : He got bit by python B : Python is my favorite programming language A 문장에서 ‘파이썬’이라는 단어는 뱀의 한 종류를 의미하고 B 문장에서는 ‘파이썬’이라는 단어는 프로그래밍 언어를 의미한다. Word2Vec과 같은 임베딩.. 딥러닝/NLP 2022. 11. 15.

[책] 전문가를 위한 C 서론 C 언어는 시스템 자원을 관리하는 운영체제 개발을 위해 만들어진 언어이다. 따라서 하드웨어를 제어하고 실행 효율을 높여야 하는 곳에 주로 쓰인다. 우리 주위에서 흔히 볼 수 있는 신호등, 자동차의 중앙 컴퓨터(CPU), 주방의 전자레인지, 스마트폰의 운영체제 등 별생각 없이 봤던 다른 장치 모두 C로 작성된 소프트웨어를 사용한다. C는 죽은 언어라는 오해와 일부 기술 전문가들의 무시에도 불구하고, 티오베에서 확인할 수 있는 티오베 지수는 이를 반증한다. C는 자바와 함께 지난 15년간 가장 인기 있는 언어였다. 그리고 최근 몇 년 동안 인기가 더 높아지고 있다. 전문가를 위한 C 이 책은 C 언어라는 만만치 않은 주제에 Extream C 라는 원서의 제목에 맞게 C 언어의 모든 부분을 다룬다. 따라.. 서평 2022. 10. 24.

한국어 임베딩 - 단어 수준 임베딩 (잠재 의미 분석, GloVe, Swivel) 1. 잠재 의미 분석 잠재 의미 분석(LSA, Latent Semantic Analysis)이란 단어-문서 행렬이나 TF-IDF(Term Frequency-Inverse Document Frequency) 행렬, 단어-문맥 행렬 같은 커다란 행렬에 차원 축소 방법의 일종인 특이값 분해를 수행해 데이터의 차원 수를 줄여 계산 효율성을 키우는 한편 행간에 숨어 있는 잠재 의미를 이끌어내기 위한 방법론이다. 단어-문서 행렬이나 단어-문맥 행렬 등에 특이값 분해를 시행한 뒤, 그 결과로 도출되는 행 벡터들을 단어 임베딩으로 사용할 수 있다. 잠재 의미 분석은 GloVe나 Swivel과 더불어 행렬 분해(matrix factorization) 기반의 기법으로 분류된다. 1.1 PPMI 행렬 단어-문서 행렬, TF.. 딥러닝/NLP 2022. 10. 21.

한국어 임베딩 - 단어 수준 임베딩 (Word2Vec, FastText) 1. Word2Vec Word2Vec은 2013년 구글 연구 팀이 발표한 기법으로 가장 널리 쓰이고 있는 단어 임베딩 모델이다. Word2Vec 기법은 두 개의 논문으로 나누어 발표됐다. Mikolov et al. (2013a)에서는 Skip-Gram과 CBOW라는 모델이 제안됐고, Mikolov et al. (2013b)은 이 두 모델을 근간으로 하되 네거티브 샘플링 등 학습 최적화 기법을 제안하였다. 1.1 모델 기본 구조 Mikolov et al. (2013a)이 제안한 CBOW와 Skip-gram 모델의 기본 구조는 다음 그림과 같다. CBOW는 주변에 있는 문맥 단어(context word)들을 가지고 타깃 단어(target word) 하나를 맞추는 과정에서 학습된다. Skip-gram 모델은 .. 딥러닝/NLP 2022. 10. 20.

한국어 임베딩 - 단어 수준 임베딩 (NPLM) 이 장에서는 다양한 단어 수준 임베딩 모델을 설명한다. NPLM, Word2Vec, FastText 등은 예측(prediction) 기반 모델, LSA, GloVe, Swivel 등은 행렬 분해(matrix factorization) 기반의 기법들이다. 가중 임베딩(Weighted Embedding)은 단어 임베딩을 문장 수준으로 확장하는 방법이다. 1. NPLM Neural Probabilistic Language Model(NPLM)은 단어들의 연쇄가 주어졌을 때 다음 단어가 무엇인지 맞추는 과정에서 분산표상된 단어 벡터들을 만드는 방법론이다. 자연어 처리 분야에서 임베딩 개념을 널리 퍼뜨리는 데 일조한 선구자적 모델로서 임베딩 역사에서 차지하는 역할이 작지 않다. 1.1 NPLM 개요 NPLM은 딥.. 딥러닝/NLP 2022. 10. 3.

[책] 판다스 인 액션 판다스 라이브러리는 데이터 분석가, AI 엔지니어, 마케터 등 직군을 불문하고 사랑받는 파이썬 라이브러리입니다. 하지만 판다스만을 중점적으로 다루는 책은 많지 않습니다. 파이썬 입문, 머신러닝 입문, 딥러닝 입문 등 여느 입문 책 사이에 조금씩 활용되지만, '판다스'라는 키워드를 yes24에 검색하면 이 책을 포함해 단 4권만이 판다스에 대해서만 다루고 있습니다. 저 또한 처음에는, 굳이 라이브러리 하나에 대해서 시간을 들여서 공부해야 할까? 모르는게 나오면 구글에 검색하면 되지 않을까? 라는 의구심이 들었습니다. 하지만 컴퓨터 사이언스와 마찬가지로 유통기한이 긴 지식들은 깊게 쌓아두면 좋을 것 같다. 라는 생각하에 이 책을 선택하게 되었습니다. 이코노미스트는 2017년 의견서에 '세상에서 가장 가치있는.. 서평 2022. 9. 25.

한국어 임베딩 - 한국어 전처리 이 장에서는 임베딩 학습을 위한 한국어 데이터의 전처리 과정을 다룬다. 형태소 분석 방법에는 국어학 전문가들이 태깅한 데이터로 학습된 모델로 분석하는 지도 학습(supervised learning) 기법과 우리가 가진 말뭉치의 패턴을 학습한 모델을 적용하는 비지도 학습(unsupervised learning) 기법이 있다. 지도 학습 기반 형태소 분석 품질 좋은 임베딩을 만들기 위해서는 문장이나 단어의 경계를 컴퓨터에 알려줘야 한다. 그렇지 않으면 어휘 집합에 속한 단어 수가 기하급수적으로 늘어나서 연산의 비효율이 발생한다. 특히 한국어는 조사와 어미가 발달한 교착어(agglutinative language)이기 때문에 이러한 처리를 좀 더 섬세히 해줘야 한다. 예를 들어 한국어 동사 [가다]는 다음과 .. 딥러닝/NLP 2022. 9. 24.

한국어 임베딩 - 벡터가 어떻게 의미를 가지게 되는가 자연어 계산과 이해 임베딩은 자연어를 컴퓨터가 처리할 수 있는 숫자들의 나열인 벡터로 바꾼 결과이다. 컴퓨터는 임베딩을 계산/처리해 사람이 알아들을 수 있는 형태의 자연어로 출력한다. 그러면 임베딩에 자연어 의미를 어떻게 함축할 수 있을까. 그 비결은 자연어의 통계적 패턴 정보를 통째로 임베딩에 넣는 것이다. 자연어의 의미는 해당 언어 화자들이 실제 사용하는 일상 언어에서 드러나기 때문이다. 임베딩을 만들 때 쓰는 통계 정보는 크게 세 가지가 있다. 첫째는 문장에 어떤 단어가 (많이) 쓰였는지이고, 둘째는 단어가 어떤 순서로 등장하는지이며, 마지막으로는 문장에 어떤 단어가 같이 나타났는지와 관련된 정보다. 구분 백오브워즈 가정 언어 모델 분포 가정 내용 어떤 단어가 (많이) 쓰였는가 단어가 어떤 순서로 .. 딥러닝/NLP 2022. 9. 19.

이전 1 2 3 4 5 다음

티스토리툴바