(3부) SAP 데이터 분석과 인공지능의 활용
페이지 정보
본문
11월 KSUG 뉴스레터 :
SAP 데이터 분석과 인공지능의 활용 (3)
2023년 11월 23일(목)
지난달에는 SAP 같은 ERP 시스템들에 거대언어모델을 활용한 대화형 인공지능이 어떻게 활용될 것인지에 대한 활용 사례와 SAP가 생성형AI를 도입해서 내재화 하려는 시도에 대해 말씀을 드렸습니다. 다들 무척 뜨거운 관심을 보이고 있는 분야입니다.
게다가 최근에는 OpenAI의 CEO인 샘 알트만이 해고되었다가 복직이 되면서 엄청난 화젯거리가 되었습니다. 이제는 ChatGPT에 관심이 없던 사람들까지 많은 뉴스를 접하게 되었습니다. 정말 짧은 며칠 동안 수많은 화제가 몰아치는 전례가 없는 사건이었지요. 오만가지 추측이 난무하면서 추가 투자를 받아내기 위한 샘 알트만 CEO의 자작극이라는 주장까지 나오는 마당이라, 일단 노이즈 마케팅은 확실히 된 것 같습니다.
얼마 전 11월 6일에는 OpenAI의 개발자 포럼이 열렸습니다. 거기에서 샘 알트만 CEO가 중요한 공표를 했지요. 누구나 특성에 맞는 특화 GPT인 GPTs를 만들 수 있도록 기술 기반과 개발 인프라를 제공해 주고, 개인 또는 회사가 만든 GPTs를 GPT스토어에 등록할 수 있도록 해서, 안드로이드나 iOS의 앱스토어처럼 누구나 사용할 수 있고 사용한 대가를 치르면 개발자에게 수수료를 제외하고 돌려주는 방식의 플랫폼을 제공하겠다고 했습니다.
그렇게 되면 이제 ChatGPT에서 특출나게 잘 다루지 못하는 전문 영역에 대해 누구나 GPT를 만들어서 올리면 된다는 것입니다. 간단한 예를 하나 들면, ChatGPT는 기업의 SCM 운영에 필요한 각종 전문적인 노하우가 담긴 분석이나 질문에 대한 대답을 해주기는 어렵습니다. 이 분야에 대해 충분한 학습이 안되었기 때문이거나, 이 분야에서만 쓰는 특별한 용어들, 그리고 회사들의 사정을 모르기 때문입니다. 그런데 SCM 분야에서 오래 몸담은 노련한 현업 전문가가 있고, 그가 과거 정리해 놓았던 노하우, 보고서, 관련 분야의 책, 관련 업계에서만 통하는 용어, 과거 데이터의 동향과 코멘트들이 많이 있다면, 이러한 정보를 통으로 학습시켜 놓은 SCM GPT를 만들어서 올려놓고, 누군가가 이를 활용할 때 대가를 받는다면 그야말로 전문가 고문을 내 옆에 두고 탁월한 자문을 받으면서 일하는 것과 같은 세상이 오지 않을까요?
세상 구석구석 수많은 분야의 전문가들이 보유하고 있는 고유하고 다양한 노하우들을 끌어내어 학습시켜서 풀어 놓게 만들면 세상에는 엄청난 변화가 초래하지 않을까 상상해 봅니다. 그런데 이건 먼 미래의 일이 아니라 몇 주 전에 발표한, 그리고 이미 시작된 OpenAI의 신사업모델입니다. 아마 이를 보고 세상 누군가는 자기가 제일 자신 있는 전공 분야의 자료를 벌써부터 긁어모으고 정리하기 시작했을 겁니다.
ChatGPT도 지금의 능력을 만들기 위해 수많은 인간 전문가들의 수작업이 투입된 것을 다들 들으셨을 겁니다. 다양한 분야에서 가능한 질문에 대한 이상적인 답안을 인간 전문가가 만들어 AI를 계속 학습시키고, 새로운 질문에 대해 AI가 만들어낸 여러 가지 답변에 대해 점수를 부여해 더 좋은 답변으로 몰고 갈 수 있도록 강화학습을 시켰다는 것입니다. 그러니 ChatGPT가 충분히 학습하지 못한 전문 분야에 대해 도메인 노하우를 가진 전문가가 GPTs를 학습시켜 쉽사리 만들 수 있다면 그야말로 혁신입니다. 물론 GPT는 다음과 같이 대규모 데이터셋, 기계 학습 아키텍처 및 상당한 컴퓨팅 자원을 결합하여 개발되었다고 합니다. 개발 과정은 설명하면 일반적으로 다음 단계를 거쳤다고 합니다. 참고로 한번 살펴보시기 바랍니다.
1. 아키텍처 설계: 모델 아키텍처를 결정하는 것이 첫 단계, GPT는 문맥을 이해하는데 뛰어난 변환기(Transformer) 아키텍처를 사용
2. 데이터 수집: 대규모 다양한 데이터셋을 수집. GPT와 같은 언어 모델의 경우, 인간의 지식과 언어의 미묘함을 포괄하기 위해 책, 웹사이트, 기사 등 다양한 소스에서 텍스트를 포함.
3. 전처리: 수집된 데이터를 정리하고 형식을 맞춤. 이는 중복 항목 제거, 관련 없는 정보 필터링, 모델 훈련에 적합한 형식으로 변환하는 작업을 포함.
4. 토큰화: 텍스트 데이터를 모델이 이해할 수 있는 토큰(단어, 부분 단어 또는 문자)으로 분해. 이 토큰들로 어휘를 생성.
5. 사전 훈련: 모델은 비지도 학습을 사용하여 전처리된 데이터로 훈련. GPT는 일반적으로 문장에서 다음 단어를 예측하도록 훈련되어, 모델이 언어 패턴과 문법을 배울 수 있음.
6. 세부 튜닝: 사전 훈련 후, 모델은 더 특정한 데이터셋이나 작업에 대해 세부 튜닝. 이는 모델이 질문에 답변하기, 언어 번역, 컨텐츠 생성과 같은 전문화된 응용 프로그램에서 더 나은 성능을 발휘하도록 함.
7. 테스팅 및 평가: 모델이 일관되고 관련성 있으며 가능한 한 편향 없는 텍스트를 생성하는지 확인하기 위해 테스트를 수행. 이 단계는 자동화된 측정 지표와 인간의 평가를 모두 포함.
8. 모델 반복: 피드백과 성능에 기반하여 모델은 정확도와 출력 품질을 향상시키기 위해 재훈련과 세부 튜닝의 여러 반복을 수행.
9. 배포: 모델이 만족스러운 성능 수준에 도달하면, 최종 사용자가 상호 작용할 수 있는 환경에 배포.
10. 모니터링 및 유지보수: 배포 후 모델의 성능을 지속적으로 모니터링합니다. 유지보수 작업에는 새로운 데이터로 모델을 업데이트하고, 시간이 지남에 따른 "드리프트"를 방지하기 위해 재훈련을 하며, 나타나는 편향이나 오류를 해결.
이러한 과정은 많은 머신러닝 엔지니어, 데이터 과학자, 도메인 전문가로 구성된 팀이 필요합니다. 하지만 이러한 과정을 모든 분야에 대해 범용으로 ChatGPT 처럼 만들 수는 없을 것입니다. 그런데 이번에 OpenAI는 일반 기업 또는 전문가 개인이 OpenAI가 제공하는 개발 인프라상에서 쉽게 GPTs를 만들고 GPT Store에서 판매를 할 수 있도록 지원한다고 합니다. 그러다 보면 각 회사들도 본인들 회사에서 내부적으로 활용할 수 있는 분야별 GPT를 만들어서 회사 내 노하우를 공유하고 승계하는 것을 훨씬 수월하게 수행할 수 있을 것 같습니다. 잘만 활용하면 저렴한 비용으로 엄청나게 똑똑한 KMS (Knowledge Management System)을 보유하게 되는 것이지요.
- 이전글[11월 KSUG 뉴스레터] (3부) SAP 데이터 분석과 인공지능의 활용 23.11.29
- 다음글11월 KSUG 패널 토크 : 핵심 포인트만 보기 23.11.26
댓글목록
등록된 댓글이 없습니다.