OpenAIのChatGPTで取り入れられている。
通常の強化学習ではエージェントが仮想世界を自由に行動し行動と報酬の関係を学習することで成立する。それに対し、RLHFでは生成されたデータの評価を人間が行いニューラルネットワークの微調整に用いている。
ざっくりわかるRLHF(人間からのフィードバックを用いた強化学習) - Platinum Data Blog by BrainPad