자사는 LLM으로 AI에 접근하여 call center를 대체하고 농가에 고품질의 영농정보를 제공하는 것에 주목하고 시스템을 구성해왔습니다. 그래서 Markup Language 기반의 text llm을 구축하여 서비스를 지원하였고 Multi-modal llm으로 발전해오고있습니다. LLM에서도 입력자료가 중요한 역할을 하고있습니다. LLM 에서 우리는 강화학습으로 확대하여 스마트벌통, 온실정보, 식물생장 데이터를 카테고리별 과 혼합형의 시나리오를 기반으로 강화학습을 통해 유의마한 결과를 얻을수 있었습니다. 강화학습을 통해 얻은 스마트팜 운영정보를 농가에 LLM을 통해 Multi-Modal로 지원하면 농가가 스마트팜 데이터에 쉽게 접근할수있도록 높은 벽을 낮추고 개별 조건에 맞는 방안을 제시하여 생산성을 높일수 있는 진정한 농가를 위한 서비스로 거듭날수 있을것입니다.

아래는 강화학습을 통한 AI 스마트팜에 대한 구현 절차 및 고려해야할 사항입니다.

구현 절차 및 고려사항

  1. 초기 데이터 수집 및 환경 시뮬레이터 구축: 기존 농업 데이터, 기후 데이터를 활용하여 기본적인 환경 모델을 구축합니다. 이는 강화 학습 에이전트의 초기 훈련에 필수적입니다.
  2. 강화 학습 에이전트 초기 훈련: 구축된 시뮬레이터 환경에서 에이전트를 훈련시킵니다. 이 단계에서는 다양한 정책을 탐색하며 보상을 최대화하는 방법을 학습합니다.
  3. 실제 농장 적용 및 데이터 수집: 시뮬레이터에서 충분히 훈련된 에이전트를 실제 스마트 농장에 적용합니다. 실제 농장에서의 에이전트의 행동과 그 결과 (생산량, 자원 사용량 등)를 지속적으로 수집합니다.
  4. 환경 모델 및 에이전트 개선: 실제 농장에서 얻은 데이터를 활용하여 환경 모델을 더욱 정교하게 만들고, 에이전트를 재훈련하여 성능을 지속적으로 개선합니다 (Transfer Learning 또는 Continual Learning).
  5. 불확실성 및 외부 요인 반영: 기후 변동성, 병해충 돌발 발생 등 예측 불가능한 요인에 대한 강건성을 확보하기 위해 불확실성을 모델링하거나, 에이전트가 이러한 상황에 유연하게 대처할 수 있도록 설계해야 합니다.
  6. 설명 가능성 (Explainability): 강화 학습 모델이 왜 특정 행동을 취했는지 설명할 수 있도록 해석 가능한 모델 (XAI)을 도입하는 것을 고려해야 합니다. 이는 농부들이 모델의 결정을 신뢰하고 받아들이는 데 도움이 됩니다.

 

블로그 이미지

AVIYO REPUBLIC Co., Ltd.

(주)아비요리퍼블릭의 홈페이지입니다.

마지막 포스트입니다. 인공지능 기술을 스마트팜에 적용하는 부분에서 가장 쉽게 생각하는 부분이 데이터 수집과 전처리에 대한 내용입니다. 하지만 오히려 가장 중요한 내용이며 의미없는 데이터의 수집과 사용은 무의미한 결론에 도달하게 됩니다.

강화 학습 에이전트의 훈련 및 환경 모델링을 위해 고품질의 데이터가 필수적입니다.

  • 다양한 센서 데이터:
    • 기상 센서: 온도, 습도, 일사량, 강수량, 풍속 센서.
    • 토양 센서: 토양 수분, 토양 온도, 토양 영양분 (EC, pH) 센서.
    • 식물 센서: 엽록소 측정기, 줄기 직경 변화 센서, 잎 온도 센서, 근적외선 (NIR) 카메라 등을 활용한 생장 지표 데이터.
  • 이미지 데이터: 드론 또는 고정 카메라를 이용한 정기적인 작물 이미지 촬영을 통해 잎 면적, 병해충 감지, 생육 단계 판별 등의 정보를 얻습니다. 컴퓨터 비전 기술을 활용하여 이미지에서 유의미한 특징을 추출합니다.
  • 농업 활동 로그: 실제 농부의 관수량, 비료 투입량, 병해충 방제 기록 등 관리 활동 데이터를 기록합니다. 이는 환경 모델 학습 및 초기 에이전트 행동 탐색에 유용합니다.
  • 데이터 전처리:
    • 결측치 처리: 센서 오류 등으로 인한 결측치 보간.
    • 이상치 제거: 오작동 센서 데이터 등 이상치 제거.
    • 정규화/표준화: 다양한 단위의 데이터를 강화 학습 모델에 적합하게 스케일링.
    • 시계열 데이터 처리: LSTM, GRU 등 시계열 예측 모델을 활용하여 미래 기후 및 생장 예측에 활용.
블로그 이미지

AVIYO REPUBLIC Co., Ltd.

(주)아비요리퍼블릭의 홈페이지입니다.

세번째 포스트는 보상함수에 대한 내용입니다. 보상함수는 강화학습의 위한 전제가되는 함수입니다.

보상 함수는 에이전트가 취한 행동의 '좋고 나쁨'을 평가하여 학습을 유도하는 핵심 요소입니다. 농업 생산성 극대화라는 목표에 부합하도록 설계해야 합니다.

  • 최종 생산량 (Yield) 기반 보상: 작물의 최종 수확량에 비례하여 높은 보상을 부여합니다.
  • 생장률 기반 보상: 일별 또는 주간 생장률 (예: 바이오매스 증가량, 잎 면적 증가량)에 비례하여 보상을 부여하여 꾸준한 성장을 유도합니다.
  • 자원 효율성 고려 보상: 물, 비료, 에너지 등 투입 자원 사용량에 대한 페널티를 부과하여 자원 효율적인 관리를 장려합니다.
  • 품질 지표 고려 보상: 당도, 경도, 색깔 등 작물 품질 관련 지표를 보상에 포함할 수 있습니다.
  • 패널티 부과: 병해충 발생, 특정 스트레스 (가뭄, 과습) 발생 시 큰 음의 보상 (페널티)을 부여하여 에이전트가 이러한 상황을 피하도록 학습시킵니다.
  • 예시:
    • 여기서 는 각 요소의 중요도를 조절하는 가중치입니다.
     

블로그 이미지

AVIYO REPUBLIC Co., Ltd.

(주)아비요리퍼블릭의 홈페이지입니다.

이번 포스트는 2번째인 에이전트 설계에 관한 내용입니다.

에이전트는 정의된 환경 상태를 기반으로 최적의 농업 관리 행동을 결정하는 주체입니다.

  • 알고리즘 선택: 농업 환경의 복잡성과 연속적인 상태/행동 공간을 고려할 때, 다음과 같은 알고리즘들이 적합합니다.
    • DQN (Deep Q-Network) 또는 DDQN (Double DQN): 이산적인 행동 공간에 적합하지만, 연속적인 행동을 양자화하여 적용할 수도 있습니다.
    • DDPG (Deep Deterministic Policy Gradient) 또는 TD3 (Twin Delayed DDPG): 연속적인 상태 및 행동 공간에 적합하며, 정밀한 제어가 필요한 농업 환경에 유리합니다.
    • PPO (Proximal Policy Optimization) 또는 SAC (Soft Actor-Critic): 정책 기반 알고리즘으로 안정적인 학습과 탐험 능력이 우수하여 복잡한 환경에 효과적입니다.
  • 행동 (Action) 정의: 에이전트가 환경에 대해 취할 수 있는 행동들을 정의합니다. 이는 농업 생산성 증대에 직접적인 영향을 미치는 관리 활동이어야 합니다.
    • 관수량 조절: 하루 또는 특정 시간 동안 공급할 물의 양 (연속적).
    • 비료 종류 및 투입량: NPK (질소, 인산, 칼륨) 비율 및 투입량 (연속적 또는 이산적).
    • 온실 환경 제어: 온도, 습도, CO2 농도 조절 (연속적).
    • 광주기 제어: 보광등 사용 여부 및 시간 (이산적 또는 연속적).
    • 병해충 방제 시점 및 방법: 예방적 살포 또는 특정 시점의 방제 (이산적).

 

블로그 이미지

AVIYO REPUBLIC Co., Ltd.

(주)아비요리퍼블릭의 홈페이지입니다.