본문 바로가기

이론/AI

[인공지능] 자연언어 처리의 '파싱'

인트로

 

1) 파싱이란?

 

2) 파싱시 공통적 고려사항 2가지

 

3) 상향식 파싱과 하향식 파싱 트리 구하기

 

4) 파싱 기법과 관련된 모호성


1) 파싱이란?

 

'파싱'은,

 

입력문장을 문장에서,

 

의미있는 단위(토큰, token)들에 해당하는 계층 구조로 변환하는 작업이다.  

 

자연언어처리에서 파싱에서는 

 

주어/동사/목적어와 같은 문장 요소들을 분리하여

 

파싱트리(parsing tree)로 나타낸다.

 

대표적인 파싱 기법에는

 

확장 전이망 (Augmented Transition Network,  ATN) ,

 

Tomita 파싱 , 차트 파싱 등이 있다. 



2) 파싱시 공통적 고려사항 2가지

1) 언어에서 허용하는 문장의 구조를 형식적으로 정의하는 체계인 문법 


2) 파싱 기법에 따라 문장의 구조를 문법에 따라 분석하는 방법  

 

문장 구조를 표현하는 가장 보편적인 방법은 '파싱트리'라는 기법이다.


3) 상향식 파싱과 하향식 파싱 트리 구하기

 

 

1) 상향식 파싱 : bottom - up 

 

[상향식 파싱 단계 예시]

Bill   bought    the    book 

=> Bill (Name), bought(Verb), the(ART),  book(Noun)

 

NAME bought the book 

 NAME VERB the book

 NAME VERB ART book

 NAME VERB ART NOUN

 NP VERB ART NOUN

 NP VERB NP

NP VP 

 S


2) 하향식 파싱 :  top - down  

 

[하향식 파싱 단계 예시]

Bill   bought    the    book 

S → NP VP
→ NAME VP
→ Bill VP 
→ Bill VERB NP 
→ Bill bought NP 
→ Bill bought ART NOUN
→ Bill bought the NOUN
→ Bill bought the book


 

4) 파싱 기법과 관련된 모호성

 

1) 구조적 모호성

 

문장의 구조를 분석할때, 문법 규칙에 따라 두가지 이상의 구조로 분석 될 수 있다.

 

[예시] 귀여운 철수의 동생을 만났다.

 

→ 귀여운 사람이 '철수'일 수도 있다.

 

→ 귀여운 사람이 '철수의 동생'일 수도 있다. 

 

 

2) 어휘적 모호성

 

한 단어가 두가지 이상의 품사로서 사용되는 성질로, 어휘적 모호성을 띈다.

 

[예시] 이 동네 사람은 말이 많다.

 

이 동네 사람은 말을 많이 한다.

 

이 동네 사람은 말을 많이 키운다.