본문 바로가기

이론/AI

[인공지능] 자연어 처리(문법, 형태소 분석)

인트로

 

오늘은 자연어 처리의 문법에 관해서 글을 쓰겠습니다.

 

1) 무제약 문법

2) 문맥 의존 문법 (자연어) 

3) 문맥 자유 문법 (프로그래밍 언어)

4) 정규 문법

5) 형태소 분석 과정 


1. 무제약 문법 

 - 가장 일반적인 문법, 앞뒤에 있는 ∮들을 '문맥'이라고 한다. 

∮A∮ -> ∮W∮ 

A∈ (N∪T)* - {ε}

W∈(N∪T)*

∮ ∈(N∪T)*


2. 문맥의존 문법 

- 무제약 문법과 달리 문맥의존 문법을 보면 A는 반드시 non- terminal이여야 한다.

∮A∮ -> ∮W∮ : 앞뒤에 있는 ∮들을 문맥이라고 한다. 

a) A∈ N

b) W∈ (N∪T)* - {ε}

c) ∮ ∈(N∪T)* 



3. 문맥 자유 문법

A-> W 앞뒤에 있는 ∮들이 ε로 바뀌었다. 

A∈ N

W∈ (N∪T)* - {ε}

∮ = ε로 제약이 가해진다. 


4. 정규 문법 

- A → aB | a

- 계속 길어지다가 non-terminal이 다 없어질 것이다. 

A ∈ N∪ {S}

B ∈ N

a ∈ T 

[예시] 

A → aBb

aaAbb → aaaBbbb

aBb는 (N∪T)* - {ε}로 이루어져 있다. 

일단 문맥에 의존하고 있고 , 어떤 문법으로 표현할 수있냐고 물어보면

 

내가 표현 할 수있는 문법 중 제일 최하위에 있는 것을 선택해야 한다.    

자연언어는? 문맥 의존 문법이고 효율적 처리 방법은 아직 없다. 

정규 문법, 문맥 자유 문법은  아직 개발이 많이 되고있다. 


 

형태소 분석과 파싱 단계

문장을 형태소 분석과 파싱(parsing)이라는 두 단계로 분석한다. 

형태소 분석을 하기 위해서는 사전이 필요하다. 

 

변형이 일어난 단어에 대해서는 원형을 복원하는 과정이다. 

어휘사전에 기반해 분석하는 방법이므로 어휘분석단계라고도 한다.


형태소 분석의 과정

- 전처리 -> 후보 생성 단계 -> 후보 선택 단계 -> 후처리단계로 이루어져있다.

- 형태소 분석의 단위는 띄어쓰기 단위이다. 

- 한글 어미 분석할 때는 사전을 100프로 사용하면 안된다. 

- 한글은 형태소 분석이 무지 복잡한 것에 비해 영어는 간단하다 . 

working = work + -ing

dying = die + -ing 

taking = take + -ing