본문 바로가기

이론/AI

[인공지능] 자연 언어 처리

목차
1) 자연언어 처리의 분석 단계
- 형태소분석, 구문분석, 의미분석, 실용분석
2) 실용 분석 단계의 설명
3) 톰스키가 정의한 문법 4가지


1) 자연언어 처리의 분석 단계
1-1. 형태소 분석 단계
- 명사 , 조사 따위로 분리하는 단계이다.
- 어휘 분석 단계이다.
- 영어같은 경우는 형태소분석 단계가 해결이 되어있다 .
- 형태소 분석기를 열심히 개발하고 있다.
- 우리나라에서 제일 좋은 형태소 분석기는 오픈되지 않았다.(2017기준)

1-2. 구문 분석 단계
- 형태소들이 결합하여 문장이나 구절을 만드는 구문 규칙에 따라서, 문장 내에서 각 형태소들이 가지는 역할을 분석하는 단계이다.
EX) 직장인은 휴일을 쉰다 (직장인은 주어, 쉰다는 서술어)

1-3. 의미 분석 단계
- 결과를 해석해서 형태소 차원에서 각각의 의미를 정확히 밝히는 단계이다.
- 먹는 배, 타는 배 와 같이 어떤 의미다라는 것까지 밝혀주는 것이 의미 분석 단계이다.
- 각 품사가 문장에서 어떤 역할을 하는지 보고 역할을 분석하는 단계이다.

1-4. 실용 분석 단계
- 문장이 실세계와 가지는 연관 관계를 분석하는 것이다.
- 좋아! 좋아? 좋아... 의 차이를 해석하는 단계이다.
EX) 자연어 처리의 예시
Mr.Kim's family wanted barbeque party.
정확한 문장이 되려면 각각의 단어들이 제 역할을 해야한다.
형태소 분석 예시
Mr, Kims, family ,...
구문 분석 예시
1) 주어 :Mr.Kim's family
2) 서술어: wanted

2. 실용분석단계
- 주체와 대상이 정해져야한다.
- 대상은 바베큐 파티이다. 주체는 Mr, Kims, family이다.
- 문맥과 상황을 파악하는 단계이다. 문맥은 단어자체에서 숨어있는 것이 문맥이다.
- 사람이 쓰는 언어를 정확히 파악하려면 앞뒤의 정황과 단어자체의 정확한 의미를 파악해야한다.
- 그래서 사람들이 쓰는 언어를 문맥의존언어라고 한다.
- 컴파일 하면 에러가 0인데 안돌아가는 경우 , 문법이 맞다고 해서 다 맞지 않는 것이 이 예시이다.
- 결국 , 사람의 언어는 문맥을 고려해야 한다.
- 형태소 분석은 사전을 기반으로 분석하면 된다.
- parsing하려면 문법이 필요하다. 문법이라는 것은 누군가가 formal하게 정의해주고 개발해야한다.

3.톰스키가 정의한 문법 4가지
문법이라는 것은 언어학자 톰스키가 정한 4가지로 정의한다.
- 언어에서 정말 중요한 것은 문법이다 . 유한한 개수의 문법(언어의 규칙)을 가지고 무한한 언어를 표현할 수 있다.
- 어떠한 문법이던 간에 아래와 같은 SET으로 표현한다.
G = { N, T , S, P }
N : 문법 기호에 해당하는 비단말기호 (nonterminal symbol) : 중간에 있는 내부 노드들
T : 단말 기호 (terminal symbol) : 형태소 분석이 끝난 단어 하나
S : 시작 기호로서 대개 문장을 나타내는 문법 기호가 시작 기호
P : 시작기호 S로부터 시작한 유도과정을 통하여 단말 기호의 열어
문법에 따라 구문분석하면 항상 결과는 parsing tree이다.

자연어처리에 관한 다음글 바로가기

[인공지능] 자연어 처리(문맥의존문법, 형태소 분석)

목차 1) 무제약 문법 2) 문맥 의존 문법 (자연어) 3) 문맥 자유 문법 (프로그래밍 언어) 4) 정규 문법 5) 형태소 분석 과정 자연어처리에 관한 이전글 바로가기 1. 무제약 문법 - 가장 일반적인 문법, 앞뒤에 있는..

life-with-coding.tistory.com