본문 바로가기

AI & IT 이야기

연합 학습(Federated Learning, FL)

728x90

2023년 4월 24일~30일까지 윤석열 대통령이 조 바이든 미국 대통령의 초청으로 미국을 국빈 방문하고 있습니다.
이재용 삼성전자 회장과 최태원 SK 그룹 회장을 비롯하여 총 122인의 경제사절단이 동행하여 양국의 협력을 이끌어내고 있습니다.
특히 이번 사절단의 테마가 "첨단사업"이기 때문에 우리가 항상 접하고 있는 반도체, 항공우주, 방위산업, 에너지, 바이오, 모빌리티 등 첨단 산업 분야에서 활약하고 있는 다양한 중소기업과 대기업들이 사절단에 포함되어 있습니다.
이 중에서도 AI 분야에서는 중기부 주관 MOU에서 한국의 하렉스인포텍과 미국 Consilient가 금융 범죄, 돈세탁 방지를 위한 연합학습 기술 기반 AI 협력에 서명하였고, 보건복지부 주관 MOU에서는 한국의 카카오와 미국의 기업이 헬스 분야 AI에서 연학 학습 기술 기반 협력을 하기로 했다고 합니다.

위의 내용에서 연합 학습이라는 기술을 볼 수 있습니다.
연합 학습이란 무엇일까요?
관련 연구에 종사하는 사람들에게는 익숙한 기술이겠지만 그렇지 않은 일반인이나.. AI 전공자라고 하더라도 보편적인 기술을 중심으로 다루는 이들에게는 다소 생소한 기술일 수 있습니다.

연합 학습(Federated Learning, FL)이란 데이터가 비공개로 유지되는 방식으로 머신러닝 알고리즘을 훈련하기 위한 접근 방식을 이야기합니다.
일반적인 머신러닝의 경우, 하나의 시스템(중앙 서버)에서 모든 데이터를 취합하여 학습에 사용하는 방식을 적용하고 있습니다.
그러나 연합학습은 데이터를 수집하는 각 시스템(또는 장치)에서 제각각 학습을 진행하고, 서버에서는 이 학습된 결과들을 취함하는 역할을 담당하는 방식입니다.
데이터가 아니라 데이터가 학습된 결과인 가중치들만 중앙 서버로 전송되기 때문에 각각의 시스템이 가진 로컬 데이터는 전송할 필요가 없습니다.

 

그림 출처: Towards Federated Learning at Scale: System Design (https://arxiv.org/abs/1902.01046)



지난 글에서 데이터 윤리에 대하여 언급을 했었죠?
개인의 민감한 데이터에 대한 침해, 저작권 침해와 같은 문제를 일으킬 수 있는 데이터는 처음부터 사용하지 않는 것이 가장 안전하겠지만 이러한 데이터를 사용해야만 하는 경우도 있습니다.
예를 들어 다양한 의료 데이터의 경우, 매우 민감한 개인의 정보가 포함되어 있지만 AI 기술을 의료분야에 적용하기 위해서는 그러한 데이터를 사용하지 않을 수 없죠.
그래서 의료 데이터를 사용할 때에는 환자 및 그 보호자에게 데이터 사용에 대한 동의를 얻고, 개인을 특정할 수 있는 데이터는 비식별화라는 과정을 거쳐 확인할 수 없도록 만든 후 활용하거나 하는 방식을 사용하고 있습니다.
그러나 비식별화 과정을 거쳤다고 하더라도 이러한 데이터는 함부로 공개할 수 없는 것이 문제입니다.
기업의 입장에서는 많은 비용과 노력을 들여 가공한 데이터를 쉽게 공개하는 것은 자사의 경쟁력에 관련된 문제가 되기도 하고, 비식별화 과정을 거쳤더라도 데이터 공개, 활용으로 인한 위험 부담을 기업이 감당해야 하기 때문에 이러한 데이터의 공개는 상당히 어려운 문제가 됩니다.
그렇다고 데이터를 꽁꽁 싸매고 접근 경로를 틀어막기만 해서는 AI 모델을 더욱 성장시키는데 장애물이 될 수 밖에 없겠죠.
이런 분야에서 연합 학습은 좋은 성과를 얻을 수 있는 방법이 됩니다.
데이터는 공개하지 않지만 그 최종적인 학습 결과물은 공유하여 서로의 AI 모델의 학습에 활용함으로써 모델의 개선, 성장을 이룰 수 있는 기술이 바로 연합 학습인 것이죠.

다시 말하면 연합 학습이라는 것은 기본적으로 조직간 협력, AI 공유를 의미하는 것이라고 할 수 있습니다.
그런데 이번 방미 일정 중에서 한미 양국이 AI분야에서 연합 학습으로 협력을 시작하는 것 같습니다.
국내에서는 연합 학습이라는 분야가 그다지 주목받지 못하고 연구 지원도 많지 않은 듯 하지만 해외에서는 상당히 활발하게 진행되고 있는 분야라고 합니다.

양국의 기업, 기관들이 자사, 자국의 중요한 데이터는 공개하지 않지만 이러한 데이터로 학습된 결과물은 서로 공유함으로써 핵심적인 기능, 능력은 서로 활용할 수 있게 되겠네요.

최근 ChatGPT, GPT-4의 데이터 무단 활용 문제 등으로 ChatGPT와 같은 초거대 AI 계열의 시스템에 여러가지 견제와 제재가 시도되고 있는데 이러한 연합 학습이 어떤 해결 방안이 될 수 있을지 기대가 됩니다.
애초부터 허가받지 않은 데이터를 학습에 사용하는 단계의 문제는 해결이 안되겠지만 그 다음 단계, 즉 AI 모델의 개선, 확산의 문제에 대한 해결 및 개선책으로는 충분한 가치가 있을 듯 합니다.

 

 

 

 

 

728x90
반응형