문서 속 틀린 그림도 찾아내는…NC AI, 멀티모달 AI 4종 오픈소스 공개

문서 속 틀린 그림도 찾아내는…NC AI, 멀티모달 AI 4종 오픈소스 공개

신융아 기자
신융아 기자
입력 2025-07-16 14:42
수정 2025-07-16 16:04
  • 기사 읽어주기
    다시듣기
  • 글씨 크기 조절
  • 댓글
    0
이미지 확대
NC AI가 개발한 멀티모달 AI ‘바르코 비전 2.0’ 로고. NC AI 제공
NC AI가 개발한 멀티모달 AI ‘바르코 비전 2.0’ 로고. NC AI 제공


엔씨소프트의 인공지능(AI) 회사 NC AI가 시각적 언어에 최적화된 ‘바르코 비전 2.0’ 등 멀티모달(텍스트·이미지 등 여러 형태의 데이터) AI 모델 4종을 오픈소스로 공개했다고 16일 밝혔다.

바르코 비전 2.0의 가장 큰 특징은 이미지와 텍스트를 동시에 이해하고 복잡한 문서나 표, 차트도 효과적으로 처리할 수 있다는 점이다. 예를 들어 문서 파일이 아닌 그냥 인쇄물을 올려도 그 안의 표와 이미지 속 문자까지 AI가 모두 이해하고 우리말로 번역할 수도 있다. 심지어는 틀린 그림 찾기도 할 수 있을 정도로 시각 자료에 대한 이해와 분석이 우수하다는 설명이다.

NC AI가 공개한 바르코 비전 2.0의 14B 모델의 벤치마크 결과를 보면 글로벌 오픈소스의 비전 언어모델 중 최고성능으로 알려진 InternVL3-14B와 알리바바의 Ovis2-16B, Qwen2.5-VL 7B를 능가하는 것으로 나타났다. NC AI는 국내 멀티모달 모델 가운데 이만한 성능을 확인한 것은 처음이라고 강조했다.

이미지 확대
NC AI가 공개한 ‘바르코 비전 2.0’의 벤치마크 결과표. NC AI 제공
NC AI가 공개한 ‘바르코 비전 2.0’의 벤치마크 결과표. NC AI 제공


경량 모델인 1.7B 모델은 스마트폰이나 PC 등 개인 기기에서도 원활하게 구동할 수 있고, 1.7B OCR 모델은 이미지 내 문자를 인식하는 작업에 특화했다. 특히 한국어와 영어가 혼합된 상황에서도 높은 인식 정확도를 보였다. 비디오 임베딩 모델은 이용자(개발자)가 일반 언어로 입력해도 원하는 이미지나 동영상 콘텐츠를 찾아준다.

NC AI는 이번에 공개한 4종의 모델을 모두 연구용 오픈소스로 공개해 기업이나 개인, 공공기관 누구나 이용할 수 있도록 했다.

이연수 NC AI 대표는 “세계적 흐름이 텍스트만 처리하는 언어모델을 넘어 비전모델을 함께 활용하는 비전언어모델로 전환되고 있다”면서 “이번 4종 모델 공개를 통해 NC AI가 비전언어모델에서도 한국의 주권을 지킬 수 있는 가능성을 확인했다”고 밝혔다.
Copyright ⓒ 서울신문 All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지
close button
많이 본 뉴스
1 / 3
'사법고시'의 부활...여러분의 생각은 어떤가요?
이재명 대통령이 지난 달 한 공식석상에서 로스쿨 제도와 관련해 ”법조인 양성 루트에 문제가 있는 것 같다. 과거제가 아니고 음서제가 되는 것 아니냐는 걱정을 했다“고 말했습니다. 실질적으로 사법고시 부활에 공감한다는 의견을 낸 것인데요. 2017년도에 폐지된 사법고시의 부활에 대해 여러분의 생각은 어떤가요?
1. 부활하는 것이 맞다.
2. 부활돼서는 안된다.
3. 로스쿨 제도에 대한 개편정도가 적당하다.
광고삭제
광고삭제
위로