테크니컬 화요일: 기존 자동화와 에이전틱 자율성의 연결

Share at:

Bridging traditional automation and agentic autonomy

에이전틱 AI의 등장과 함께, 조직은 기존 자동화의 향후 역할에 관해 의문을 제기하고 있습니다. 하지만 이 질문은 핵심을 놓치고 있습니다. 에이전틱 AI는 자동화를 대체하는 것이 아니라 그 가치를 훨씬 더 높일 것입니다.

UiPath는 이러한 기술을 항상 선도해 왔습니다. Computer Vision 및 Document Understanding 같은 AI 기술을 조기에 도입함으로써 자동화가 일련의 엄격한 규칙에 그치지 않고 보고 생각하고 추론도 할 수 있는 것임을 입증했습니다. 바로 이러한 사고방식은 당사가 현재 가지고 있는 에이전틱 자동화 비전, 다시 말해 AI 에이전트와 로봇과 사람을 결합하여 장기 실행 적응형 워크플로우와 실시간 의사 결정을 가능하게 한다는 비전을 촉진하고 있습니다.

제어, 위험, 자율성의 스펙트럼

모든 AI 기능에는 항상 자율성과 신뢰성 간 상충이 발생했습니다. 에이전틱 AI도 다르지 않습니다. 기본 모델 아키텍처로 인해 높은 자율성이 대체로 가장 우선시됩니다. 이로 인해 AI 에이전트는 불확실성이 높고 상황에 따른 즉각적인 변화와 조정이 요구되는 태스크에 매우 적합합니다. 그러나 비즈니스는 모든 종류의 태스크에 각각 다른 제어 수준이 필요합니다.

이러한 세분화 및 사용자 지정 요구 수준에 따라 당사는 에이전틱 UI 자동화에 대한 접근 방식을 결정합니다.

UiPath agentic UI automation diagram

에이전틱 UI 자동화는 에이전틱 AI를 사용해 UI 기반 태스크를 수행하는 데 집중하는 에이전틱 자동화의 한 범주입니다. UiPath Platform™는 여러 레이어를 통해 에이전틱 UI 자동화에 액세스할 수 있도록 하며, 이러한 방식은 자율성과 위험 간의 적절한 균형을 맞춰 비즈니스 요구 사항을 해결하는 솔루션을 선택할 수 있는 유연성을 제공합니다.

  • 선택기 레벨: UiPath 시맨틱 선택기는 자동화의 일환으로 로봇이 UI 엘리먼트를 더 잘 식별하는 데 도움을 줍니다. 이는 미시적 태스크 레벨에서 발생하지만 기존 선택기가 잘 작동하지 않는 시나리오를 다룹니다. 덕분에 최소한의 위험과 최대 예측 가능성으로 에이전틱 AI의 이점을 누릴 수 있습니다.

  • 웹 양식 레벨: 시맨틱 선택기와 마찬가지로 UiPath 시맨틱 액티비티는 에이전틱 AI를 사용하여 미시적 태스크 레벨에서 UI 엘리먼트 작업을 처리합니다. 하지만 더 복잡하고 동적인 시나리오를 다루며, 웹 양식 작업에 맞춰 특별히 설계되었습니다. 시맨틱 액티비티는 자율성이 제한적이고 제어되는 에이전트 AI를 배포하는 한편, 자동화의 복원력과 적응성을 높입니다.

  • 단일 앱 컨텍스트 레벨: UiPath ScreenPlay는 대규모 행동 모델(LAM)을 활용해 사용자 지침을 실제 화면 액션으로 전환합니다. 위에서 언급한 미시적 태스크 솔루션과 달리 ScreenPlay는 비교적 높은 자율성으로 전체 애플리케이션에서 작동하며, 기존 자동화에서는 도달할 수 없던 태스크를 수행할 수 있습니다.

  • 다중 앱 컨텍스트 레벨: UiPath 에이전틱 UI의 마지막 레이어는 유인 데스크톱 에이전트입니다(현재 개발 중). 디지털 어시스턴트 역할을 하며, 여러 앱과 시스템 전반에서 자율적으로 태스크를 실행할 수 있습니다.

DOM 추출: UiPath 에이전트 서비스의 핵심 엔진

에이전트 서비스의 레이어별로 자세히 알아보기 전에 UiPath의 모든 에이전틱 UI 자동화 기능의 핵심 요소인 AI 기반 문서 개체 모델(DOM) 추출 엔진에 관해 알아보겠습니다.

컴퓨터 사용에 대한 최근 작업은 대부분 스크린샷을 사용해 타겟 애플리케이션의 상태와 콘텐츠를 관찰하는 데 중점을 두고 있습니다. 환경(화면 포함)을 관찰하는 사람의 방식에 최대한 가깝게 유지하려는 것은 타당한 접근 방식이지만 선별된 DOM을 추출하는 데서 전형적으로 볼 수 있는 주요 이점이 없을 수 있습니다.

  • 현재 뷰포트에만 한정되지 않고 스크롤 가능한 전체 웹 페이지를 볼 수 있지만, 스크롤이 느리고 답답합니다.

    DOM 기반 접근 방식은 데이터 추출의 신뢰성과 정확성을 높일 뿐만 아니라 처리 속도도 더 높입니다.

    DOM 기반 접근 방식에서는 모든 콘텐츠가 런타임 당 한 번 추출됩니다.

  • 화면 UI 엘리먼트에 숨겨진 유용한 데이터(예: 아이콘을 설명하는 숨겨진 텍스트 레이블)를 사용할 수 있음

이러한 이유로 UiPath는 자체 사용자 지정 AI 기반 DOM 추출 엔진을 개발하는 데 크게 투자했습니다. 이 엔진은 시맨틱 선택기, 시맨틱 액티비티, ScreenPlay 및 Clipboard AI 기능( TIME의 2023년 최고의 발명품 중 하나로 선정됨)을 구동합니다. Clipboard AI 기능은 UiPath Autopilot의 일부로 제공됩니다.

DOM 추출의 가장 좋은 점은 이미지 기반 이해와 함께 작동한다는 점입니다(AI Computer Vision을 내부에서 사용하고, 타겟-앵커 쌍을 구축하기 위해 다른 전담 AI 모델을 사용함). 덕분에, pure-DOM 추출기가 놓칠 수도 있는, 화면 이해에 중요한 단서들을 놓치지 않습니다.

마이크로 에이전트: 에이전트 스토리의 시작

에이전틱 자동화는 양자택일 방식일 필요는 없습니다. 앞서 언급했듯이 비즈니스 요구 사항에 따라 필요한 에이전틱 솔루션의 수준이 다릅니다. 다시 말해서, 미시 수준의 소규모 태스크에 에이전틱 AI를 활용하는 경우도 있습니다. 이러한 이유로 UiPath는 기존 자동화 액티비티와 완전한 자율형 에이전트 사이 지능적인 디딤돌로서 마이크로 에이전트의 개념을 도입했습니다.

및 시맨틱 액티비티(예 양식 채우기, 양식 데이터 추출, UI 엘리먼트 업데이트(이전에는 '값 설정'이라고 함))를 마이크로 에이전트로 정의할 수 있습니다. 정밀도가 높은 특정 태스크를 처리하도록 설계되었으며 다음의 이점을 제공합니다.

  • 특정 태스크 인텔리전스

  • 정밀한 시맨틱 일치 - 생성형 AI 기반

  • 예측 가능한 실행 - 계층화된 대체 전략에 따라 이루어짐

이름만 마이크로 에이전트가 아닙니다. 이들 도구는 신뢰할 수 있고, 경계가 설정되어 있으며, 강력한 제약적 자율성을 보입니다. 마이크로 에이전트는 에이전트의 잠재력을 제한하기 보다는 오히려 활성화하여 더 높은 수준의 자율성을 위한 기초를 마련하는 동시에 엔터프라이즈급 안정성을 보장합니다.

시맨틱 선택기와 시맨틱 액티비티가 마이크로 에이전트의 비전을 실제로 어떻게 구현하는지 자세히 살펴보겠습니다.

시맨틱 선택기: 복원력이 뛰어난 타겟팅

UiPath의 사용자 지정 DOM 추출 엔진과 AI 추론 엔진(예 GPT)을 기반으로 구축된 시맨틱 선택기는 자동화가 UI 엘리먼트를 식별하는 방식을 개선합니다. 기존 선택기는 속도가 빠르지만 취약합니다. 시맨틱 선택기는 개발자(또는 UiPath Autopilot™ 같은 AI 어시스턴트)가 예를 들어 "양식을 제출하는 버튼"과 같이 일상 언어로 UI 타겟을 설명할 수 있게 함으로써 이러한 취약성을 극복합니다.

runtime에 시스템은 사용할 대체 레이어를 지능적으로 결정합니다. 엄격한 선택기와 퍼지 선택기를 1차로, 시맨틱 선택기를 2차로, 컴퓨터 비전을 3차로 사용하도록 선택합니다. 각 장점을 모두 이용하는 이 전략은 지연 시간이 짧은 실행과 뛰어난 복원력을 모두 제공합니다.

시맨틱 액티비티: 양식을 중심으로 한 지능형 데이터 추출 및 입력

시맨틱 액티비티 는 양식 작업에 맞춰 특별히 설계되었으며 데이터 추출 및 데이터 입력을 위한 직접적이고 강력한 방법을 제공합니다. 시맨틱 일치, 시맨틱 실행, DOM 추출기 기반 상호 작용을 사용하여 화면 엘리먼트가 변경되거나 실행이 중단되는 등의 동적 시나리오를 처리합니다. 다양한 종류의 웹 양식 간에 데이터를 전송하는 데 매우 간편하게 사용할 수 있어 양식 입력 또는 양식 추출 시나리오를 크게 단순화합니다.

미시 규모에서 거시 규모로 확장: UiPath ScreenPlay

시맨틱 선택기 및 시맨틱 액티비티의 원칙을 UiPath ScreenPlay 에도 적용했습니다. ScreenPlay는 지능형 자동화를 사용자 데스크톱에 직접 제공하는 에이전트입니다. 태스크별 마이크로 에이전트와 달리 ScreenPlay는 전체 애플리케이션에서 작동합니다. 예를 들어 "지난달 인보이스를 찾아서 다운로드해 줘”와 같이 자연어로 작성된 목표를 이해하고 사람이 하는 방식으로 인터페이스를 자율적으로 탐색하여 필요한 액션을 실행합니다. 또한 입/출력을 처리하고 UI 상태를 모니터링할 수 있습니다.

현재 ScreenPlay는 높은 안정성을 보장하기 위해 단일 앱이나 URL로 범위가 한정됩니다. 하지만 예측 가능성을 저해하지 않으면서 더 폭넓은 실행 패턴의 가능성을 열어 줍니다. ScreenPlay는 대규모 행동 모델(LAM)의 잠재력을 실현 하는 것이 핵심입니다.

유인 데스크톱 에이전트: 진정한 컴퓨터 사용 기능

UiPath의 노력은 여기서 멈추지 않습니다. 머신의 여러 애플리케이션에서 자율적인 디지털 어시스턴트로 작동할 차세대 유인 데스크톱 에이전트를 개발하기 위해 최선을 다하고 있습니다. 작업 영역의 맥락을 이해하고 이에 맞게 유인 환경에서 작동하는 주체라고 생각하면 됩니다.

UiPath가 가지고 있는 데스크톱 에이전트 비전은 기존 자동화의 강점을 버리는 것이 아닙니다. 여러 레이어로 구성된 인텔리전스를 통해 더 유연하고 복원력이 뛰어나며 궁극적으로 더 유용한 자동화를 구현함으로써 향상하는 것이 핵심입니다. 데스크톱 에이전트의 향후 업데이트를 기대해 주세요.

훨씬 더 스마트해진 자동화

요약하자면, 에이전틱 UI 자동화는 기존 자동화의 대체가 아닌 진화입니다. 초기의 컴퓨터 비전부터 오늘날의 계층화된 에이전틱 자동화 스택에 이르기까지 UiPath는 실용적이고 복원력이 뛰어난 지능형 자동화를 일관되게 제공해 왔습니다.

자동화가 반복 태스크를 수행하는 것에 초점을 두었다면, 에이전틱 UI 자동화는 반복적인 액션으로 해결 불가능한 태스크뿐만 아니라 높은 수준의 적응성, 자율성, 인텔리전스를 요구하고 변화하는 입력 요소에 크게 의존하는 태스크를 처리하는 데 초점을 맞춥니다. 그리고 이러한 여정은 신뢰, 예측 가능성, 점진적인 자율성 구현에서 시작되며, 이 특징은 UiPath Platform의 DNA에 내재되어 있습니다.

모든 문제에 대해 가장 강력한 도구를 사용할 필요는 없습니다. 어떤 문제는 보다 비용 효율적인 방법으로 해결할 수 있을 정도로 단순합니다. 사용하는 도구와 기능을 모든 상황에서 최적화하면 됩니다. 그러므로 모든 사용 사례를 포괄할 수 있도록 플랫폼의 유연성이 요구됩니다. 중요하고 반복적인 프로세스에는 위험성이 낮고 안정성이 높아야 하며, 결과에 가치를 더하는 프로세스에는 여전히 인텔리전스와 자율성을 도입해야 할 수 있습니다. 이는 "단순함이 가장 중요"하다는 식료품점 REMA 1000의 마케팅 원칙과 상통하는 철학입니다.

시맨틱 액티비티 및 시맨틱 선택기와 같은 마이크로 에이전트를 기반으로 하고, 차세대 혁신 ScreenPlay를 현재 사용할 수 있으며, 곧 출시될 유인 데스크톱 에이전트를 갖춘 UiPath 에이전트 스택은 자신 있게 지능적으로 자동화를 확장할 수 있도록 지원합니다.

시작하려면 UiPath Insider 프로그램에 참여 하여 ScreenPlay를 사용해 보고 새로운 기능과 제품을 조기에 접해 보세요.

Bogdan Sultana
Bogdan Sultana

Senior Product Manager , UiPath

Get articles from automation experts in your inbox

Subscribe
Get articles from automation experts in your inbox

Sign up today and we'll email you the newest articles every week.

Thank you for subscribing!

Thank you for subscribing! Each week, we'll send the best automation blog posts straight to your inbox.