logo
logo
쌓여가는 비정형 데이터…포티투마루가 제시하는 기업용 초거대 AI 방향은?[블로터 ICT 콘
IT·과학1321321321
스타트업

쌓여가는 비정형 데이터…포티투마루가 제시하는 기업용 초거대 AI 방향은?[블로터 ICT 콘

Andrew Chair tt
입력
수정
AI(인공지능) 기술 기반 스타트업 포티투마루는 사용자의 질의 의도를 정확하게 이해하고 방대한 비정형 데이터에서 '단 하나의 정답'을 도출하는 딥 시맨틱(Deep Semantic) QA (Question Answering) 및 LLM(거대언어모델) 플랫폼을 고도화하고 있다.

권혁성 포티투마루 사업개발 이사는 12일 서울 서초구 양재동 엘타워에서 블로터 주최로 개최된 '블로터 ICT 콘퍼런스'에서 '초거대 언어모델 상용 사례 및 활용전략'이라는 주제로 강연을 진행했다.

포티투마루는 딥 시맨틱 QA 및 LLM 등 AI에 개반한 언어처리 프로젝트를 진행하고 있는 기업이다. 전자, 통신, 조선해양, 자동차, 금융(은행·보험·카드·증권), 커머스·리테일, 미디어, 법률 등 다양한 산업 분야에서 플랫폼을 확장하고 있다. 

그는 포티투마루의 딥 시맨틱 QA와 LLM 플랫폼이 전자, 통신, 조선해양, 금융 등 전 산업 분야에서 어떻게 활용되고 있는지와 관련한 제작 프로세스와 실제 사용 사례에 대해 이야기했다.

먼저 권 이사는 "사업을 현장에서 뛰며 고객들을 만나고 있는 만큼, 실제 사업 현장에서 어떤 AI를 도입해야 하는지 현실적인 이야기를 하겠다"며 운을 뗐다. 

그는 "2000년대 초반 '지식경영'이 유행하며 많은 기업이 사내 자원을 활용한 KMS(지식관리시스템)을 도입해 보편화된 툴로 사용해왔다"며 "20여년이 지난 현재 해당 데이터를 재검색해 자원으로 활용하는 데에 어려움을 겪는 곳이 많아지며 AI 언어처리 플랫폼의 필요성이 커졌다. 해당 데이터는 비정형화된 텍스트인 데다 양이 기하급수적으로 늘어났기 때문"이라고 진단했다.

그는 자원 검색 과정에서 효율성을 높이는 것이 중요한 시점이라고 강조했다. 기업의 구성원들은 정보를 찾는 데에만 많은 시간을 할애하고 있다는 이유에서다. 그는 "조사 결과에 따르면 기업의 근로자들은 8시간 중 2.5시간을 특정 정보를 찾는 데에만 사용하고 있다"고 말했다.

AI 검색 시스템은 '키워드 검색 시스템'에서 '지능형 AI 검색 시스템', '초거대 AI 기반 검색 시스템'으로 변화했다. 권 이사는 오픈AI의 챗봇 '챗GPT'나 구글의 AI 챗봇 '바드(Bard)' 등 LLM이 모든 것을 해결해주지는 않을 것이라고 강조했다. 정보 탐색 방식에 따라 검색 방식이 달라야 한다는 이유에서다. 그는 "데이터에 따라 키워드 검색이 필요할 수도, MRC(기계독해)가 필요할 수도 있다"고 덧붙였다. 

그는 포티투마루의 AI 기반 딥 시맨틱 QA 솔루션 'QA42'가 기업에서 실제로 업무에 활용할 수 있는 해법으로 적용되고 있다고 설명했다. QA42는 테이블 QA(Table QA), MRC 등 기업이 보유한 다양한 양식의 문서 및 비정형의 문서, 양식 검색 처리를 지원하고 있다. 

특히 QA42는 MRC 기술을 기반으로 한다. MRC는 기계가 사람처럼 지문을 읽고 이해한 후, 주어진 질문에 답하는 기술이다. 전통적인 정보 검색과 달리 의미를 이해하고 하나의 정답만을 도출할 수 있다. 

다만 사용자는 문서없이 질문을 던지기도 하고 구어체와 문어체를 구별하지 않기 때문에 MRC만으로는 문서를 찾는 데에 어려움이 있다. 이에 권 이사는 "(이같은 문제를 해결하기 위해)딥러닝 기술을 접목해야 한다"고 덧붙였다. 

권 이사는 "MRC 기술을 상용화하기 위해서는 질의에 가장 적합한 지문을 실시간으로 도출하는 것이 관건"이라며 "포티투마루는 20여년 간의 검색 엔진 개발 및 포털 운영 노하우를 가진 전문인력들의 노하우를 바탕으로 MRC를 상용화하는 데 성공했다"고 강조했다. 

QA42의 기술인 '테이블QA(TableQA)'는 표 형태로 존재하는 문서 내 주요 정보에 대한 검색도 가능하다. 그는 "사용자들이 실제 쓰는 문서에는 표가 많다"며 "표 자체를 다룰 때 AI가 적용될 수 있냐는 질문도 많이 받고 있다. QA42는 표를 그대로 살리면서 내용을 마킹하는 방식으로 답을 도출해낼 수 있다"고 설명했다. 

엔진을 경량화한 포티투마루의 'LLM42'에 대한 설명도 이어졌다. 권 이사는 "유명 LLM의 경우 보도자료 작성, 번역, 카피라이팅 등의 기능을 제공한다고 하지만 경량화 버전은 창의적인 작업에는 한계가 있다"고 지적했다.

포티투마루의 경량화 LLM(sLLM)은 QA(질의응답), 요약, 키워드 추출 등 정보를 찾는 목적에 포커스 돼 있다. 특히 고객사의 문서 및 정보에 초점을 맞춰 활용하기 때문에 고객이 필요한 정보를 생성할 수 있다. 

LLM42를 고객사에 맞게 커스터마이징(맞춤화)하기 위해서는 기존 솔루션 납품과 유사하게 데이터를 구축하고 튜닝해야 한다. 고객사가 사용하고 있는 데이터와 고객사의 목적에 맞추는 것이 핵심이다. 

또 한국어를 충분히 학습한 공개 LLM 베이스로, 한국어를 학습 시키는 비용이나 시간을 절약할 수 있다. 또 특정 분야와 관련된 추가 말뭉치를 학습해 해당 분야에 특화된 sLLM을 구축할 수 있다. 

언어모델로서의 LLM에 자연어 기반의 사용자의 의도를 파악해 정확하게 원하는 결과를 제공하는 대화형 인공지능 모델도 구축했다. 질의응답, 키워드 추출 등 목적에 초점을 맞춘 것이다. 복잡하거나 특정 산업군에 특화된 태스크에 대해 빠르고 유연하게 대처하는 능력을 갖추는 어댑터 기반의 유연한 구조로 가능하게 했다. 

이 경우 초기 사용 단계에서 필요한 인건비를 크게 줄일 수 있다는 장점이 있다. 폐쇄망 안에서 다뤄야 하는 기업 자료의 특성 상 초기 데이터를 입력하기 위해서는 인적 자원이 필요하기 때문이다. LLM42는 이 부분을 빠르게 대처할 수 있어 비용을 줄일 수 있는 대안이 됐다. 

권 이사는 마지막으로 고객사 대우조선해양의 사례를 들었다. 대우조선해양의 경우 선주들과의 질의응답은 문서로 진행되는 경우가 많은데, 문서가 쌓일 수록 과거의 데이터를 찾기가 어려워지는 경우가 많다. 

권 이사는 "포티투마루의 기술은 이 쌓여있는 문서들을 다 뜯어보고 (과거의 데이터를 모르는)새로운 선주가 질문을 했을 때 이와 가장 비슷한 질문을 과거 데이터에서 찾을 수 있는 프로세스를 마련해 답변할 수 있도록 했다"고 설명했다. 

그는 "전체 프로젝트 기간 중 문서를 정비하고 뜯어내는 과정이 거의 70% 이상이었다"며 "사업 기간이 늘어날 수록, 세대가 교체될 수록 과거 데이터를 활용하기 어려워지는 어려움을 해결해줄 수 있었다"고 마무리했다. 
 

Andrew Chair tt
#ict콘퍼런스#포티투마루