ファインチューニングモデルだと、データの傾向に従って長い出力をするようになったけど、後半部分がかなり怪しい感じになっている。対策としてデータのバリアンスを増やすのもありかもだけど、LoRA系の手法の限界もあるのかもしれない。
文字化け
ついでに外部リンクは_blankにしたい
https://zenn.dev/matsuolab/articles/377f7ae8b1169e
Tanukiモデルの開発において、事後学習は非常に重要な役割を果たしました。この段階では、モデルが人間と自然かつ効果的に対話できるよう、細かな調整を行いました。主に用いた手法は、Supervised Fine-Tuning (SFT)とDirect Preference Optimization (DPO)です。
_blank化はできた。
データのバリアンスを増やすという意味で、ちょうど最近見たこれが印象に残った。 https://www.itmedia.co.jp/aiplus/articles/2408/29/news078.html