시스트란은 이번 사업을 통해 특허 및 기술과학 분야 인공지능 기계번역 모델의 성능 향상을 목표로 하고 있다. 한국어와 중국어 ·일본어 간의 AI번역 모델 학습을 위한 양뱡향 데이터 구축으로 학습 데이터셋을 이용한 민간의 AI 번역 모델 개발 활용성 증대를 지원할 예정이다.
이번 사업은 시스트란 외에도 인공지능 자연어처리 기업 트위그팜과 플리토, 렉스코드, 솔트룩스 이노베이션 등 각 분야 전문 기관들이 함께 수행한다.
특히 주관기관인 시스트란은 세계시장에서 인정받고 있는 인공지능 번역 솔루션 글로벌 기업으로 2021년 특허청과 협력을 통해 ‘2021년 공공데이터(중한 특허 말뭉치 구축) 기업 매칭 지원사업’을 성공적으로 수행한 바 있다.
시스트란의 김유석 대표는 “이번 사업은 특허 및 기술과학 분야 용어 및 학습용 번역 데이터를 활용한 특화된 AI번역 모델 개발과 GPT와 같은 초거대 모델의 번역능력 강화 학습에 활용하고, 국내외 특허 검색 및 기술 조사 분석 서비스 기업들이 사용하는 특허 및 비특허 문서의 번역 품질을 향상시키는 등 원시데이터 활용성의 증대를 목적으로 한다”고 말했다.
이어 “인공지능 모델 개발 시 구축된 소스코드 및 구축된 말뭉치를 이용한 학습 매뉴얼 등을 상세하게 개발자 커뮤니티에 제공하여 다양한 분야에 쉽게 활용할 수 있도록 지원함은 물론 주관기관이 납품한 특허분야 솔루션을 사용하고 있는 특허청 및 민간기업, 클라우드 서비스의 상용 인공지능 번역 모델에 본 사업에서 구축된 학습데이터를 적용할 계획”이라고 덧붙였다.
한편, 시스트란은 1968년 창립 이후 현재까지 지속적으로 기계번역 기술을 개척해온 기계번역 시장의 글로벌 리더로서 세계최초 자체 개발한 AI 기반 신경망 기계번역(NMT) 기술을 상용화하여 시중의 기계번역 기업들에게 보급하고 있다. 수십 년간 축적된 다국어 처리 기술 노하우를 바탕으로 다양한 언어와 특허, 기술과학 등 산업별 도메인의 전문용어 최적화 AI 번역 솔루션을 공급하는 AI 기계번역 전문기업이다.
박경호 빅데이터뉴스 기자 news@thebigdata.co.kr
<저작권자 © 빅데이터뉴스, 무단 전재 및 재배포 금지>