Intro to NLP

1 minute read

Intro to Natural Language Processing(NLP)

  • Academic Disciplines related to NLP
  • Treands of NLP

NLP(Natural Language Processing)

NLU(Natural Language Undestanding)과 LNG(Natural Language Generation이 존재

NLPDiagram

집합으로 표현하면 위 그림과 같다.

Natural language processing

NLP는 최첨단 딥러닝 모델 및 작업을 포함하고 있다.

Includes state-of-the-art deep

자연어 처리에서는 다양한 아래를 포함한 다양한 Task를 다루게 된다.

Low-level parsing

각 단어를 준비하기 위한 가장 low level의 task

  • Tokenization
    • 문장을 이루는 각 단어들을 정보 단위로 생각.
    • 주어진 문장1을 단어(Token) 단위로 나누는 과정
  • Stemming
    • 어미 변화에 따른 의미 변화를 없애고 단어의 어근을 추출

Word and phrase level

  • Named entity recognition(NER2)
  • part-of-speech(POS3) tagging
  • noun-phrase chunking
  • dependency parsing
  • coreference resolution

Sentence level

  • Sentiment analysis
    • 문장의 긍정/부정 판단
  • machine translation
    • 영어 문장을 한글 문장으로 번역

Multi-sentence and paragraph level

  • Entailment prediction
    • 두 문장의 논리적인 내포, 모순 관계 파악
  • question answering
    • 독해 기반의 질의 응답 (구글 검색에서 문장으로 질문 입력 시 답이 출력)
  • dialog systems
    • 챗봇 (대화 실행)
  • summarization
    • 문서 요약

Text mining

빅데이터 분석과 관련된 기술

  • Extract useful information and insights from text and document data
    • e.g., analyzing the trends of AI-related keywords from massive news data
  • Document clustering (e.g., topic modeling)
    • e.g., clustering news data and grouping into different subjects
  • Highly related to computational social science
    • e.g., analyzing the evolution of people’s political tendency based on social media data

Laplace smoothing

add - 1

$P(x_i c) = {\displaystyle count(x_i, c) + 1 \over \displaystyle \sum_{x\in V}{count(x, c) + 1}}$

$\displaystyle \sum_{x\in V}{count(x, c) + 1}$에서 1을 더해주는 이유는 계산한 확률이 0이 되지 않도록 하기 위해서. 1이 아닌 적당한 상수를 사용해줘도 된다.


1: Token들이 특정 순서로 이루어진 sequence

2: 단일 단어, 고유 단어 인식 task (New york times)

3: 단어의 품사나 성분을 알아내는 task (주어, 목적어, 동사 등)

Categories:

Updated: