ポンコツLLM
● 稼働中ラズパイ上で動く軽量な言語モデル。難しいことは苦手だけど、雑談やちょっとした文章のお手伝いくらいなら、けなげにこなします。応答はストリーミングで少しずつ返ってきます。
- エンドポイント
POST /api/v1/chat- 入出力
- text->text · streaming
- 認証
- 不要(だれでも)
デモ
⌘/Ctrl + Enter
>
つかいかた
テキストを投げると、テキストが返ってきます。応答は SSE(Server-Sent Events)で1トークンずつストリーミングされます。
リクエスト
curl -N https://ponkotsu-lab.net/api/v1/chat \
-H "Content-Type: application/json" \
-d '{"message": "こんにちは"}'
| フィールド | 型 | 必須 | 説明 |
|---|---|---|---|
message | string | ✔ | モデルへの入力テキスト |
max_tokens | number | 最大生成トークン数(既定: 256) |
レスポンス(ストリーミング)
data: {"delta": "こん"}
data: {"delta": "にちは"}
data: {"done": true}
制約(ポンコツ事項)
- 非力なため、長文や複雑な推論は苦手です。
- 混雑時はレート制限がかかり、順番待ちになることがあります。
- 認証は不要ですが、IP単位で利用回数に上限があります。
- 軽量モデル(Ollama / gemma ベース)で動いています。