ChatGTP/GPT-4で利用する強化学習とHACHIX社内での活用方法

Admin
2023年4月17日
読了時間: 2分

更新日：2024年4月26日

はじめに

米OpenAIは、2022年11月にChatGPTというサービスを一般向けに公開しました。公開当初より大きな注目を集め、わずか2カ月で月間アクティビティユーザーが1億人を超えました。そして、2023年3月14日に、新しいバージョンのGPT-4が発表されました。

GPT-4を利用するために、OpenAIが提供する「ChatGPT Plus」に20ドルを支払って申し込むと、GPT-4が利用できます。また、Microsoftが提供する検索エンジンBingでは、GPT-4が無料で利用できます.

ここでは、GPT-4で採用する強化学習技術について、社内で調査した内容を共有します。

人間による強化学習フィードバック(RLHF: Reinforcement learning by human feedback)

GPT-4は言語モデルと人間による強化学習フィードバックの組み合わせを利用しています。言語モデルをそのまま利用する場合、攻撃的な文章を生成しまったり、ユーザーの意図と関係のないことを話してしまうことがある。さらに学習データには様々な偏見や問題のあるデータも踏まれており、これらに影響を受けた文章を生成してしまう。

そのため、モデルがユーザーの意図に沿い、問題のない発言ができるよう、RHLFを採用しています。この学習では、最初はラベラーと呼ばれる人が対話例をつくり、そのを元に教師あり学習で微調整する。次に様々なプロンプト、パラメータ条件下で作った対話生成例に対し、ラベラーがランキングを付ける。このランキング結果を使って、自動評価システムで報酬を与え、それが最大化されるように強化学習によってパラメータを調整する。

強化学習は技術的なポテンシャルがあったものの、なかなか社会にインパクトを与えることができていなかった。それが、今回のGPT-4で採用されて、もっとも産業的に成功した応用例の一つである。