AI-PC의 미래를 볼 수 있는 기술,
마이크로스프트의 UFO를 보고자 한다.
논문
https://arxiv.org/html/2402.07939v1
UFO : A UI-Focused Agent for Windows OS Interaction
License: arXiv.org perpetual non-exclusive license arXiv:2402.07939v1 [cs.HC] 08 Feb 2024 UFO : A UI-Focused Agent for Windows OS Interaction Chaoyun Zhang, Liqun Li, Shilin He, Xu Zhang, Bo Qiao, Si Qin, Minghua Ma, Yu Kang, Qingwei Lin, Saravan Rajmohan,
arxiv.org
깃허브
https://github.com/microsoft/UFO?tab=readme-ov-file
GitHub - microsoft/UFO: A UI-Focused Agent for Windows OS Interaction.
A UI-Focused Agent for Windows OS Interaction. Contribute to microsoft/UFO development by creating an account on GitHub.
github.com
해당 깃허브를 방문에서 사용법을 확인할 수 있다.
사용 전, GPT-V의 API를 사용하기 위해 OPENAI API Key를 만들어야 된다.
https://openai.com/blog/openai-api
OpenAI API
We’re releasing an API for accessing new AI models developed by OpenAI.
openai.com
https://m.blog.naver.com/mynameistk/223062993136
OpenAI API Key 발급 방법, 사용내역 보는 법 (GPT-4 API Waitlist 등록 방법 있음)
OpenAI API Key 발급 및 사용내역 보는 방법을 알아보겠습니다. API라는 용어가 익숙하지 않다면...
blog.naver.com
이후 상단에 있는 깃허브를 받고, requirement를 설치해준다.
# [optional to create conda environment]
# conda create -n ufo python=3.10
# conda activate ufo
# clone the repository
git clone https://github.com/microsoft/UFO.git
cd UFO
# install the requirements
pip install -r requirements.txt
이후, 발급받은 api key를 UFO\ufo\config\config.yaml에 설정해준다.
windows powershell에서 \UFO로 이동 한후,
실행시켜보자
# assume you are in the cloned UFO folder
python -m ufo --task <your_task_name>
여기서 명령을 내릴 수 있다.
시연영상
https://www.youtube.com/watch?v=1k4LcffCq3E
기사 내용을 요약 해주고, 이것을 이메일까지 보내준다.
그런데, openai의 가격이 사악하다...,1회 수행에 1달러라니...,,
요약하면
UFO는 LLM 모델을 통해서 Windows의 UI 프로그램에 구성되어 있는 작업들을 수행 할 수 있는 기능이다.
24년 2월기준 아직 기술의 한계는 명확한거 같다.
python의 pywinauto 및 Windows UI 자동화를 지원하는 프로그램에서만 동작한다는 한계점과 익숙하지 않은 프로그램에서는 제대로 된 작업을 할 수 없었다.
이 한계점을 보완하려고, Microsoft는 대안적인 백엔드를 개발중이고, 시각적 인식을 위한 전용 GUI 모델을 통합하여 UFO를 개선할 계획입니다. 또한 온라인 검색 엔진에 연결하면 에이전트가 알려지지 않은 GUI에 적응하는 능력을 향상시킬 수 있다고 한다.
'파이썬 이것저것 > 파이썬 딥러닝 관련' 카테고리의 다른 글
[Python] Gpt4Free 여러 LLM모델을 무료로 써보기 (1) | 2024.02.25 |
---|---|
[Python] Yolo-World 실시간 비전언어 모델 (1) | 2024.02.06 |
[python] docker stack + nginx를 이용한 grpc inference 서버 구축 (0) | 2023.10.28 |
yolo-nas 학습하기[Python] (3) | 2023.06.07 |
[TensorRT] ValueError: cannot reshape array of size 57603 into shape (360,360) - ValueError 해결 (0) | 2022.10.30 |