ollamaのモデルリストにあったLFM2を試してみました。
早速感想から
めっちゃ早いwwww
短文ではありますが、生成速度を見てみました。
RTX4060Ti 16GBでGPU内に収まるサイズであることもあるとは考えられますが、爆速です。
それでいて日本語による回答もなかなかできています。
>>> 唐揚げとは何か簡単に教えて
唐揚げは、食材を油で揚げて作る料理で、外側はカリッと中はふんわりとした食感が特徴です。鶏肉や野菜、海産物などがよく使われます。日本では、鶏の唐揚げが特に有名で、家庭料理や外食でも人気があります。
total duration: 827.342284ms
load duration: 70.995114ms
prompt eval count: 17 token(s)
prompt eval duration: 51.049055ms
prompt eval rate: 333.01 tokens/s
eval count: 80 token(s)
eval duration: 669.20495ms
eval rate: 119.54 tokens/s
Raspberry Pi 5 16GBでも実行してみました。
さすがにグラボと比較すると遅いですが、ラズパイの本体サイズでこれだけ動くなら十分な気もします。
>>> 唐揚げとは何か簡単に教えて
唐揚げは、油で揚げた鶏肉料理で、外側はカリッと中はジューシーな食感が特徴です。日本では、鶏もも肉や手羽先などを片栗粉や小麦粉で衣をつけ、熱い油で揚げて作ります。甘辛いタレや醤油ベースのソースで味付けされることが多く、屋台や居酒屋で人気があります。
total duration: 18.491370433s
load duration: 121.233623ms
prompt eval count: 17 token(s)
prompt eval duration: 1.465457835s
prompt eval rate: 11.60 tokens/s
eval count: 106 token(s)
eval duration: 16.758792476s
eval rate: 6.33 tokens/s
ある程度長文を出力させたところラズパイでは、2分以上かかりました。長文には向きませんが短文ならありかも?
total duration: 2m55.970358821s
load duration: 151.253647ms
prompt eval count: 335 token(s)
prompt eval duration: 25.65467498s
prompt eval rate: 13.06 tokens/s
eval count: 845 token(s)
eval duration: 2m20.351615268s
eval rate: 6.02 tokens/s
RTX4060Tiだと、クラウド上のサービスよりも早いかもしれない速度で返してきます。
API使いたくないけど、高速に帰ってきてほしいときとかはよいかもしれないと思いました。