Start Trial

16 April 2020

오프라인 데이터를 디지털로 변환...OCR과 AI 기반의 RPA로 문서처리를 최적화하는 방법!

16 April 2020

오프라인 데이터를 디지털로 변환...OCR과 AI 기반의 RPA로 문서처리를 최적화하는 방법!

빠르게 변화하는 디지털 시대의 경쟁에서 뒤처지지 않으려면, 문서에서 필요한 정보를 쉽게 찾고 빠르게 접근할 수 있어야 합니다. 그러기 위해서는 종이 형태로 존재하는 오프라인 문서를, 파일 형태의 온라인 데이터로 변환하고 저장해서 관리해야 합니다. 이러한 오프라인 문서를 얼마나 빠르고 효율적으로 처리하느냐는, 회사 전체의 생산성에도 적지 않은 영향을 미치는 중요한 요소입니다.

 
이미 업무 프로세서 전체를 완벽하게 디지털화한 곳도 있습니다. 하지만 그렇지 않은 환경에서 디지털 전환이나 업무 자동화가 성공을 거두고 생산성을 향상하려면, 종이 문서를 완벽에 가깝게 디지털 데이터로 변환하는 과정이 필수적입니다. OCR(Optical character recognition)은 오프라인 문서를 온라인 데이터로 변환할 때 사용되는 가장 중요한 과정입니다.
 
문서 처리를 빠르고 정확하게 처리하는 가장 효과적인 방법은, 이러한 OCR 작업에 인공지능을 결합하는 것입니다. 단순한 OCR 작업만으로는 문서에 포함된 문자를 인식하는 데 한계가 있습니다. 따라서 오프라인 문서를 온라인 데이터로 전환하려면, 다음과 같은 4가지 단계를 거쳐야 합니다. RPA에서 ‘인공지능 기반의 광학문자인식’이 왜 필요하고, 어떻게 활용될 수 있는지 알아보도록 하겠습니다.
 
OCR_1-1

 

1단계 : OCR을 사용하여 오프라인 데이터를 온라인 데이터로 변환

전통적인 문서 처리 관행은 불편하고 비효율적입니다. 디지털화되지 않는 문서로부터 데이터를 추출하는 과정에서, 많은 회사가 여러가지 오류나 문제로 어려움을 겪습니다. 수동으로 데이터를 추출하는 과정에서 실수가 생기거나, 잘못된 라벨링 문제를 종종 겪게 됩니다. 이 과정에서 적지 않은 시간과 비용을 낭비해야 합니다.
 
이러한 문제들을 해결하기 위해 기업들은 문서를 디지털화하는 작업에 눈을 돌리고 있습니다. 엠-파일에 소개된 '지능형 문서 자동화 동향'을 살펴보면, 많은 기업들이 디지털 문서로의 전환을 계획하고 있는 것을 알 수 있습니다. 지능형 문서 자동화 동향은 AIIM(Association of Intelligent Information Management) 실시한 문서 자동화에 관한 설문 조사를 바탕으로, 지능형 문서 자동화 트렌드에 대해 설명하고 있습니다.
 
2019년에 실시된 AIIM의 설문 결과에 따르면, 70%의 응답자가 더 많은 문서를 디지털로 확장할 것이라고 응답했습니다. 2018년 39%만이 해당 질문에 대해 응답했던 것과 비교하면, 일 년 만에 거의 두 배 가까이 증가한 것을 알 수 있습니다. 또한 41%는 종이 양식을 전자 양식(eForms)으로 대체하는 데 중점을 둘 것이라고 밝혔습니다.
 
문서 처리를 전문으로 하는 기업은, 종이 문서를 디지털 형식으로 변환할 수 있는, 디지털 시스템을 채택하고 있습니다. 이러한 시스템에서 핵심 프로세스는 OCR입니다. 즉, 스캐너를 사용해 문서를 이미지로 만들고, 이미지에 포함된 문자와 기호를 인식해, 텍스트 파일이나 PDF  같은 문서 파일로 변환해서 저장하는 것입니다.
 
오프라인 중심의 업무 프로세서를 디지털 방식으로 전환하기로 했다면, 이전에 존재하던 종이 문서 형태의 데이터를, 모두 이러한 과정을 거쳐 디지털로 변환해야 합니다. 물론 일부 문서만 종이를 사용하고 있다고 해도, 디지털화된 업무 시스템에서 활용하려면, OCR 작업은 필수적입니다. 하지만 전통적인 OCR 기술만으로는 넘을 수 없는 한계가 있습니다. 
 

2 단계 : 온라인 데이터를 넘어 '지능형 OCR'로 이동

OCR에서 가장 중요한 과정은 종이 문서를 스캐너로 스캔하거나 디지털카메라로 사진을 촬영하는 것입니다. 이렇게 사진으로 바뀐 문서에서 문자, 기호, 사진, 도형 등을 정확하게 구분해야 합니다. 이 과정에서 얼마나 정확하게 문자를 인식하느냐는 이미지의 품질에 절대적인 영향을 받습니다. 원본 종이 문서가 완벽하다고 해도, 이미지 해상도가 낮거나 스캔 과정에서 오류가 생기면, 문자 인식률은 급격하게 떨어집니다.
 
그렇다고 무작정 해상도를 높이는 것도 문제가 있습니다. 해상도가 높아지면 이미지 파일의 크기도 커져서, 보관 및 관리에 더 많은 저장공간이 필요하고, 이미지를 처리하는 시스템의 성능도 좋아야 합니다. 예를 들어 OCR 소프트웨어가 숫자 ‘3’과 ‘8’, 영문자 ‘O’와 숫자 ‘0’, 영문자 ‘O’와 ‘D’를 구별하지 못하면, 원본에 있는 내용과 인식한 내용이 달라지는 문제가 발생합니다.
 
이렇게 잘 못 인식한 문자들이 섞인 문서는 일일이 사람이 직접 확인하고 교정해야 합니다. 70%의 정확도나 90%의 정확도나 OCR에서는 큰 의미가 없습니다. 숫자상으로 정확도가 높아도 오류가 생긴다면, 문서에 있는 내용을 원본과 대조하고 확인해야 합니다. 이렇게 사람 손을 거쳐야 한다면, 굳이 OCR을 사용할 필요가 없고, 오히려 사용을 기피할 수밖에 없습니다.
 
그래서 OCR을 활용한 문서 인식이 시간과 비용을 절약해주는, 효율적이고 효과적인 수단이 되러면 인공지능(AI)이 필수적입니다. OCR에 적용할 머신 러닝(machine learning) 모델을 만들고 훈련시킨 인공지능을, 문서 인식에 활용하면서 오류는 줄어들고 효율은 향상되었습니다. 이러한 지능형 OCR은 손으로 쓴 글씨, 체크 박스, 삭제 표시(cross-out) 등, 기존 OCR 시스템에서 인식하기 어려웠던 부분을 디지털화하는데 큰 역할을 하고 있습니다.
 

 3 단계 : 더 나은 데이터 추출 및 문서 분류를 위해 AI 사용

종이 문서를 디지털 형식으로 변환하는 것은, 문서가 가진 데이터로서의 가치를 추출하는 과정에서, 첫 번째 단계에 불과합니다. 디지털화하는 과정에서 사용하는 OCR 시스템은 작업 중인 문서의 종류와 내용을 이행할 수 있어야 합니다. 예를 들어 현재 문서가 견적서인지, 세금계산서인지, 진료 차트인지, 작업 지시서인지를 인지할 수 있어야 한다는 뜻입니다.
 
전통적인 OCR 소프트웨어만으로는 이러한 과정에서 어려움을 겪을 수밖에 없습니다. 문서 종류가 워낙 다양한 데다, 동일한 문서라도 보관이나 사용상태에 따라, 이미지로 바꿨을 때 품질이 달라지기 때문입니다. 기본의 OCR 소프트웨어에 포함된 문서 인식 엔진은 헤더 식별과 같은 간단하고 단순한 접근 방법을 활용해 문서 유형을 분류합니다. 바꾸어 말하면 문서 형식을 보다 세부적으로 분류하거나 복잡한 형태의 문서 인식에는 한계가 있습니다.
 
기존 OCR 솔루션을 사용하여 문서를 분류하려면, 문서 템플릿에 국한하거나, 추출할 필드를 지정하는 데 사용할 사전 정의된 절차, 문서에서 해당 필드를 찾기 위한 규칙이 있어야 합니다. 이를 위해 데이터가 되풀이되는 패턴, 문서 안에서의 위치나 로고처럼 쉽게 찾을 수 있는 위치를 기준으로 규칙을 만들 수 있습니다. 템플릿 활용은 자연스러운 접근 방식이지만 정적인 방법이라 유연함이 없습니다.
 
종이 문서를 디지털로 변환하는 작업이 확장되면, 초기에 적용했던 것과 관련 없는 변형된 문서를 처리해야 하고, 이를 위해 새로운 템플릿 작성과 관리를 위해 투자를 해야 합니다. 하지만 이 과정에 인공지능이 개입하면, 문서를 분류하고 데이터를 추출하는 과정을, 더 쉽고 간편하며 효율적으로 바꿀 수 있습니다.
 
인공지능을 활용하면 훈련된 모델을 사용하여, 문서 유형을 분류하고, 관련 정보를 구조화된 방식으로 추출할 수 있습니다. 모델 기반 OCR 솔루션은 문서 유형을 식별하고, 이를 비즈니스에서 사용하는 알려진 문서 유형과 비교할 수 있습니다. 구조화되지 않는 문서에서 텍스트 블록의 구문을 분석하고 이해하는 것도 가능합니다. OCR 솔루션이 문서에 대해 더 많이 알게 되면, 필요한 정보를 추출할 수 있고, 변경이나 변형된 문서도 더 쉽게 처리할 수 있습니다.
 
템플릿을 만드는 대신 원하는 필드를 정의한 다음, 머신러닝 모델에 이러한 필드 찾는 방법을 알려줄 수 있습니다. 그러면 머신 러닝 모델은 주어진 문서를 인식하고 분류하고, 사람이 유효성을 검증하는 과정을 거치며, 문서 및 문자 인식을 학습하게 됩니다. 이러한 기능이 있으면 문서 처리 솔루션의 유연성과 확장성이 향상됩니다.
 

4 단계 : AI를 사용하여 새로운 통찰력과 행동 강화

문서 분류와 데이터 추출에 인공지능을 사용하는 것은, 조직에 큰 도움을 줄 수 있는 중요한 단계입니다. 자동화되고 정확한 문서처리를 빠르고 효율적으로 처리할 수 있게 되면, 추출한 텍스트로 더 많은 작업을 수행할 수 있는 로드맵을 구축할 수 있습니다. 또한 여러 문서 또는 다양한 백 엔드 시스템의 데이터를 참조하여 오류를 확인할 수도 있습니다.
 
예를 들어 인보이스 금액이 정확하지 않지만, OCR 프로세스에는 오류가 없다고 가정합니다. 그리고 문제의 원인을 찾기 위해 로봇 조합을 사용하여, 여러 문서 유형 및 시스템에서 데이터를 추출합니다. 이러한 방법을 활용해 데이터를 교차 점검하는 것은 물론이고, OCR 프로세스 자체 또는 외부의 예외나 오류를 확인할 수 있습니다.
 
데이터 세트에 인공지능을 적용하면, 과거 상황에 따라 예측하고, 잠재적인 이상을 식별하는 것도 가능해집니다. 보험 처리 절차를 예로 들어보면, 들어오는 클레임을 디지털화하고, 청구 날짜나 성격 그리고 금액 같은 관련 정보를 추출합니다. 다음에는 이러한 데이터에 머신러닝 모델을 적용하여, 사기가 의심되는 특정 클레임을 식별할 수 있습니다.
 
앞에서 살펴본 바와 같이 기존의 OCR과 인공지능이 만나면, 종이 문서를 디지털로 처리하는 것이 어렵거나 불편한 일이 아닙니다. 만약, 시간과 비용 낭비가 심하고 비효율적이지만, 어쩔 수 없이 전통적인 OCR 업무를 고수하고 있다면, 전체적인 OCR 솔루션을 교체해야 합니다. 아울러 전체 업무 프로세스를 분석하고 고려해, 인공지능과 결합한 OCR 솔루션이 역시 인공지능과 함께 협업하는 RPA 플랫폼 안에서 운영되도록 해야 합니다.
 
인공지능을 활용해 문서 처리 방법을 단순화하고 최적화하는 데 도움이 되는 방법에 대해 자세히 알고 싶으신가요? 그렇다면 인사이드 프리뷰 프로그램(Insider Preview Program)에 가입하시기를 권합니다. 이러한 기능을 실제로 체험해 보고 싶다면 UiPath 엔터프라이즈 클라우드 무료 평가판을 사용해 보시기를 추천합니다.
 
UiPath 홈페이지 소프트웨어 가이드를 방문하면 OCR 액티비티에 관련한 좀 더 자세한 정보 얻을 수 있습니다. OCR 액티비티는 인식 대상 OCR 언어를 설치하는 방법,  이미지 및 텍스트 자동화 정보, OCR 및 이미지 자동화 사용 사례 등을 참고할 수 있습니다. 아울러 아래에 링크로 소개하는 홈페이지나 블로그를 방문하면, 더 많은 OCR이나 컴퓨터 비전 관련 자료를 참고할 수 있습니다. 모두 영문으로 되어 있는 자료들인데, 필요하다면 구글의 크롬 브라우저의 자동 번역 설정을 활용하면, 기술 문서라서 내용을 이해하는 데 큰 어려움이 없을 것입니다.
 
 
 
 
 
 

 


by UiPath Korea

TOPICS: UiPath, RPA, OCR, AI-OCR, 로보틱프로세스자동화, 자동화, 로봇프로세스자동화, 사무자동화, 유아이패스

Show sidebar