파이썬 이것저것/파이썬 딥러닝 관련

[Python] UFO: A UI-Focused Agent for Windows OS Interaction

agingcurve 2024. 2. 25. 15:53
반응형

AI-PC의 미래를 볼 수 있는 기술,

마이크로스프트의 UFO를 보고자 한다.

 

논문

https://arxiv.org/html/2402.07939v1

 

UFO : A UI-Focused Agent for Windows OS Interaction

License: arXiv.org perpetual non-exclusive license arXiv:2402.07939v1 [cs.HC] 08 Feb 2024 UFO : A UI-Focused Agent for Windows OS Interaction Chaoyun Zhang, Liqun Li, Shilin He, Xu Zhang, Bo Qiao, Si Qin, Minghua Ma, Yu Kang, Qingwei Lin, Saravan Rajmohan,

arxiv.org

 

구성도

 

 

깃허브

https://github.com/microsoft/UFO?tab=readme-ov-file

 

GitHub - microsoft/UFO: A UI-Focused Agent for Windows OS Interaction.

A UI-Focused Agent for Windows OS Interaction. Contribute to microsoft/UFO development by creating an account on GitHub.

github.com

해당 깃허브를 방문에서 사용법을 확인할 수 있다.

 

사용 전, GPT-V의 API를 사용하기 위해 OPENAI API Key를 만들어야 된다.

 

https://openai.com/blog/openai-api

 

OpenAI API

We’re releasing an API for accessing new AI models developed by OpenAI.

openai.com

 

https://m.blog.naver.com/mynameistk/223062993136

 

OpenAI API Key 발급 방법, 사용내역 보는 법 (GPT-4 API Waitlist 등록 방법 있음)

OpenAI API Key 발급 및 사용내역 보는 방법을 알아보겠습니다. API라는 용어가 익숙하지 않다면...

blog.naver.com

 

 

이후 상단에 있는 깃허브를 받고, requirement를 설치해준다.

# [optional to create conda environment]
# conda create -n ufo python=3.10
# conda activate ufo

# clone the repository
git clone https://github.com/microsoft/UFO.git
cd UFO
# install the requirements
pip install -r requirements.txt

 

이후, 발급받은 api key를 UFO\ufo\config\config.yaml에 설정해준다.

 

windows powershell에서 \UFO로 이동 한후, 

실행시켜보자

# assume you are in the cloned UFO folder
python -m ufo --task <your_task_name>

 

여기서 명령을 내릴 수 있다.

 

시연영상

https://www.youtube.com/watch?v=1k4LcffCq3E

 

 

기사 내용을 요약 해주고, 이것을 이메일까지 보내준다.

그런데, openai의 가격이 사악하다...,1회 수행에 1달러라니...,,

 

요약하면

UFO는 LLM 모델을 통해서 Windows의 UI 프로그램에 구성되어 있는 작업들을 수행 할 수 있는 기능이다.

24년 2월기준 아직 기술의 한계는 명확한거 같다.

python의 pywinauto 및 Windows UI 자동화를 지원하는 프로그램에서만 동작한다는 한계점과 익숙하지 않은 프로그램에서는 제대로 된 작업을 할 수 없었다.

이 한계점을 보완하려고, Microsoft는 대안적인 백엔드를 개발중이고, 시각적 인식을 위한 전용 GUI 모델을 통합하여 UFO를 개선할 계획입니다. 또한 온라인 검색 엔진에 연결하면 에이전트가 알려지지 않은 GUI에 적응하는 능력을 향상시킬 수 있다고 한다.