SLM3 [논문 리뷰] RS-DPO(Rejection Sampling DPO) 최근에 RLHF, DPO 같은 모델을 학습하는 방법론에 대해 공부해보는 중인데요,오늘은 올해 초 아마존에서 제안한 RS-DPO(Rejection Sampling Direct Preference Optimization)에 대해 소개해드리려고 합니다. RLHF와 DPO 관련 내용이 궁금하시다면 해당 포스팅 1(RLHF), 2(DPO)를 참고 해보시면 좋을 것 같습니다! RS-DPO란?RLHF와 DPO 둘 모두 사람의 선호도를 기반으로 언어 모델을 튜닝해서 조금 더 "사람처럼 답변하는" 또는 "사람이 선호하는 답변을 생성하는" Alignment 과정을 위한 학습방법론입니다.RLHF는 데이터 수집 및 학습에 비용이 많이 들고, 강화학습 방법론의 일종이다 보니 학습이 불안정 할 수 있다는 단점이 있었습니다.이 한.. 2024. 11. 19. DPO란? - RLHF를 개선한 모델 학습 방법론 DPO란?오늘은 지난번에 알아본 RLHF(Reinforcement Learning with Human Feedback)의 효율화된 버전인 DPO(Direct Preference Optimization)에 대해 알아보겠습니다.RLHF와 그 한계점에 알고싶으신 분들은 해당 포스팅을 참고해보시면 좋을 것 같습니다!DPO는 RLHF와 마찬가지로 사람의 피드백을 활용하여 언어 모델을 개선하는 방법론입니다.다만 RLHF의 비용적 한계를 개선하기 위해 좀 더 간단한 접근법을 제시합니다. DPO는 아래와 측면에서 비용적 한계를 개선했습니다.직접적인 선호도 최적화: 사용자의 선호도 데이터를 직접 활용하여 언어 모델을 최적화합니다.리워드 모델 불필요: RLHF와 달리 별도의 리워드 모델을 학습할 필요가 없습니다.간소화된 .. 2024. 11. 18. RLHF란? - ChatGPT가 사용한 언어모델 학습 방법론 RLHF란?RLHF(Reinforcement Learning with Human Feedback)는 강화 학습의 한 종류로,사람의 피드백을 활용해서 모델을 개선하는 방법론입니다.강화 학습에서는 주어진 환경에서 얻을 수 있는 보상을 최대화하는 방향으로 학습을 하는데,RLHF는 이 보상이 사람의 선호도라고 생각하면 이해하기 쉽습니다 :) 1+2는 뭐야? 라고 물어봤을 때 아래 답변들 모두 올바른 답변을 했다고 평가할 수 있습니다.정답은 3입니다. 너무 쉬운 문제네요.3입니다.1과 2를 더하면 3이기 때문에 정답은 3입니다.이러한 상황에서는 뭘 기준으로 더 학습을 진행해야 모델이 개선될지 정하기 어려울 수 있는데요,이럴 때 RLHF로 사람의 선호도를 반영하도록 학습을 한다면, 언어 모델은 더 자연스럽고 일관성.. 2024. 11. 16. 이전 1 다음