상세 컨텐츠

본문 제목

ETRI, 구어체 언어분석 API 공개

연구실 최전선

by 문성 2020. 8. 6. 11:45

본문

 

한국전자통신연구원(ETRI)은 자체 개발한 언어 인공지능 '엑소브레인'(Exobrain)의 구어체 언어 분석 API(응용프로그램 개발 위한 도구)를 공개(사진. ETRI)했다고 6일 밝혔다.

위키백과나 법령 등 문어체를 주로 이해하는 기존 문어체 분석 기술에 구어체까지 학습하도록 해 사람의 대화를 분석할 때 나타나는 오류를 최대 41%까지 줄였다.

개체명 인식 기술은 문장 내 고유 대상과 그 의미를 인식하는 기술이다. 예를 들어 '국민은행'이라는 단어가 명사 '국민''은행'의 결합이 아닌 은행의 고유 명칭이라는 점을 인식하는 기술이다.

'경상돈데'라는 구어체의 경우 기존 기술은 축약 표현을 인식하지 못해 '경상돈+'라고 분석했지만, 형태소 분석 기술을 이용해 '경상도+인데'로 분석할 수 있다.

구어체 언어 분석 기술은 과업 자체의 난도도 높지만, 학습데이터가 부족해 어려움이 있다고 연구원은 설명했다. 기계학습과 딥러닝 기술은 대규모 학습데이터가 필요하나 구어체 분야는 데이터 확보조차 쉽지 않기 때문이다.

실제 개체명 인식 학습 데이터의 경우 문어체는 약 27만 건에 달하지만, 구어체는 10분의 1 수준인 25000 건에 불과하다.

이번 기술 개발로 구어체 분석 API는 기존 문어체 분석 API와 비교해 형태소 분석과 개체명 인식 성능이 각각 5.0%, 7.6% 개선된 것으로 나타났다.

연구팀은 기존 대비 성능을 개선한 문어체 언어 분석 API도 추가로 공개했다. 문어체 언어 분석 API의 형태소 분석과 개체명 인식 기술은 각각 96.8%, 89.4%의 높은 정확도를 보였다.

임준호 ETRI 책임연구원은 "201710월 엑소브레인 언어 분석 API를 공개한 이래 사용 건수가 2600만 건에 이를 정도로 학계와 연구자들 사이에서 널리 사용되고 있다""이번에 신규공개한 언어분석 API는 사람의 대화까지 정확하게 이해할 수 있어 AI 비서, 챗봇 등 언어지능 서비스 개발에 기여할 것"이라고 말했다.

관련글 더보기