Hewlett Packard Enterprise

자율형 AI 에이전트 개발 실무 LangGraph와 Multi-Modal Tool-Using

- 본 과정은 단순한 LLM 체인(Chain)을 넘어, 스스로 계획하고, 도구를 사용하며, 계획을 수정하는 '자율형 AI 에이전트'를 구축하는 고급 개발자 과정입니다. - LLM 에이전트 구축의 차세대 표준인 LangGraph를 사용하여 '상태(State)' 기반의 복잡하고 순환적인(Cyclical) 워크플로우를 설계합니다. - 텍스트 기반의 Tool-Using을 넘어, GPT-4o/LLaVA(Vision), Whisper(Audio)와 같은 멀티모달(Multi-Modal) 모델을 에이전트의 도구로 통합합니다. - 에이전트가 이미지를 '보고', 오디오를 '듣고' 판단하여 복잡한 실제 문제를 해결하는 차세대 AI 애플리케이션 개발 역량을 확보합니다. <선수지식> - Python (중급 이상): 함수, 클래스, 딕셔너리 등 파이썬 자료구조에 능숙해야 함 - LangChain (필수): LCEL(LangChain Expression Language)을 사용해 본 경험 및 'Tool'을 정의해 본 경험 - LLM API 사용 경험: OpenAI, Anthropic, Hugging Face 등 LLM API 호출 경험

학습 목표

• LangChain(DAG)의 한계를 이해하고, LangGraph(Stateful Graphs)의 필요성을 설명할 수 있다. • LangGraph를 사용하여 상태(State), 노드(Node), 엣지(Edge)로 구성된 에이전트 아키텍처를 설계할 수 있다. • Conditional Edges(조건부 분기)를 구현하여, 에이전트가 도구 사용 결과에 따라 스스로 '재계획(Re-plan)'하거나 작업을 완료하게 만들 수 있다. • 멀티모달(Vision/Audio) 모델을 에이전트의 'Tool'로 래핑(Wrapping)하고 LangGraph에 통합할 수 있다. • 이미지와 텍스트를 모두 이해하고 복잡한 작업을 수행하는 '멀티모달 리서치 에이전트'를 구축할 수 있다.

수강대상

• LangChain(LCEL)을 사용해 봤지만, 더 복잡하고 자율적인 에이전트 구현에 한계를 느낀 AI 개발자 • 챗봇을 넘어, 'AI 비서', '자동화 봇' 등 복잡한 비즈니스 프로세스를 자동화해야 하는 시니어 개발자 • GPT-4o, LLaVA 등 멀티모달 모델을 활용하여 이미지/오디오를 이해하는 지능형 서비스를 기획/개발하는 기획자 및 엔지니어

커리큘럼

대면
자율형 AI 에이전트 개발 실무 LangGraph와 Multi-Modal Tool-Using
Module 1 – 왜 LangGraph인가? (From Chains to Agents)
- AI 에이전트의 핵심: ReAct, Planning, Tool-Using
- LangChain(LCEL)의 한계와 순환(Cycle)의 필요성
- (LangGraph 아키텍처: State, Nodes, Edges
- LangGraph로 간단한 ReAct(Reason+Act) 에이전트 구현하기
Module 2 – LangGraph 심화: 상태 기반 워크플로우
- StateGraph와 상태(State) 관리 Deep Dive
- add_node: 작업자 노드(Worker Node)와 도구(Tool) 연동하기
- dd_conditional_edges: 에이전트의 '두뇌' 구현 (도구 사용/재계획/종료 분기)
- 에러 핸들링 및 'Self-Correction(자가 수정)' 루프 구현하기
Module 3 – 멀티모달 (Multi-Modal) Tool-Using
- 멀티모달 LLM의 이해 (GPT-4o, LLaVA, CogVLM)
- Vision Tool 구축: 이미지(스크린샷)를 입력받아 설명(Description)을 반환하는 Tool (LLaVA/GPT-4o Vision API)
- Audio Tool 구축: 음성 파일을 입력받아 텍스트로 변환(STT)하는 Tool (Whisper API)
- LangGraph State에 이미지/오디오 데이터 추가 및 관리
Module 4 – 멀티모달 에이전트 통합
- 멀티모달 에이전트 라우팅 아키텍처 설계
- 'Vision 라우터' 구현: 입력에 이미지가 포함되면 Vision Tool 노드로 분기
- "웹 UI 자동화 에이전트" (개념 실습): 스크린샷을 '보고' 다음 클릭할 버튼을 결정하는 에이전트
- LangSmith를 이용한 에이전트 실행 흐름 추적 및 디버깅
Module 5 – 멀티모달 리서치 에이전트
- "이 차트(이미지)와 최신 뉴스(텍스트)를 바탕으로 주식 시장을 분석해 줘."
- 웹 검색 Tool (텍스트)
- 이미지/차트 분석 Tool (Vision)
- 종합 리포트 생성 에이전트 (LangGraph로 전체 워크플로우 오케스트레이션)
- 에이전트 배포 및 FastAPI를 이용한 API 서빙

자율형 AI 에이전트 개발 실무 LangGraph와 Multi-Modal Tool-Using

자율형 AI 에이전트 개발 실무 LangGraph와 Multi-Modal Tool-Using

온디맨드 교육 특징