メインコンテンツへスキップ

Documentation Index

Fetch the complete documentation index at: https://factory-docs-auto-sync-jp-docs.mintlify.app/llms.txt

Use this file to discover all available pages before exploring further.

Ollamaを使用してローカルハードウェアでモデルを実行するか、ホスト型推論にはOllama Cloudを使用してください。
パフォーマンスに関する注意: 300億パラメータ未満のモデルは、エージェント型コーディングタスクで大幅に低い性能を示しています。小型モデル(7B、13B)は実験や学習には役立ちますが、本番のコーディング作業や複雑なソフトウェアエンジニアリングタスクには一般的に推奨されません。

ローカル Ollama

インターネット接続不要で、マシン上で完全にモデルを実行します。

設定

~/.factory/settings.json に追加:
{
  "customModels": [
    {
      "model": "qwen2.5-coder:32b",
      "displayName": "Qwen 2.5 Coder 32B [Local]",
      "baseUrl": "http://localhost:11434/v1",
      "apiKey": "not-needed",
      "provider": "generic-chat-completion-api",
      "maxOutputTokens": 16000
    },
    {
      "model": "qwen2.5-coder:7b",
      "displayName": "Qwen 2.5 Coder 7B [Local]",
      "baseUrl": "http://localhost:11434/v1",
      "apiKey": "not-needed",
      "provider": "generic-chat-completion-api",
      "maxOutputTokens": 4000
    }
  ]
}

セットアップ

コンテキストウィンドウ設定: Factoryで最適なパフォーマンスを得るには、コンテキストウィンドウを少なくとも32,000トークンに設定してください。方法は次のいずれかです:
  • Ollamaアプリのコンテキストウィンドウスライダーを使用する(最小32kに設定)
  • 起動前に環境変数を設定する: OLLAMA_CONTEXT_LENGTH=32000 ollama serve
十分なコンテキストがない場合、体験は大幅に低下します。
  1. ollama.com/download からOllamaをインストール
  2. 必要なモデルをプル:
    # Recommended models
    ollama pull qwen2.5-coder:32b
    ollama pull qwen2.5-coder:7b
    
  3. 追加のコンテキストでOllamaサーバーを開始:
    OLLAMA_CONTEXT_LENGTH=32000 ollama serve
    
  4. Factory設定に構成を追加

おおよそのハードウェア要件

モデルサイズ必要RAMVRAM (GPU)
3B params4GB3GB
7B params8GB6GB
13B params16GB10GB
30B params32GB20GB
70B params64GB40GB

Ollama Cloud

ローカルハードウェア要件なしで、Ollamaのクラウドサービスを使用してホスト型モデル推論を利用

推奨クラウドモデル

エージェント型コーディングに最適なパフォーマンスは qwen3-coder:480b で観測されています。 利用可能なクラウドモデルの完全なリストについては:ollama.com/search?c=cloud

設定

{
  "customModels": [
    {
      "model": "qwen3-coder:480b-cloud",
      "displayName": "qwen3-coder [Online]",
      "baseUrl": "http://localhost:11434/v1/",
      "apiKey": "not-needed",
      "provider": "generic-chat-completion-api",
      "maxOutputTokens": 128000
    }
  ]
}

クラウドモデルを始める

  1. Ollamaがインストールされ、ローカルで実行されていることを確認
  2. クラウドモデルはローカルOllamaインスタンス経由でアクセス - APIキー不要
  3. 上記の設定をFactory設定に追加
  4. 要求時にモデルが自動的にクラウドコンピュートを使用

トラブルシューティング

ローカルサーバーが接続できない

  • Ollamaが実行中であることを確認:ollama serve
  • ポート11434が利用可能かチェック
  • テストには curl http://localhost:11434/api/tags を試行

モデルが見つからない

  • 最初にモデルをプル:ollama pull model-name
  • ollama list で正確なモデル名を確認

注意事項

  • ローカルAPIは認証不要(api_key には任意のプレースホルダーを使用)
  • モデルは ~/.ollama/models/ に保存されます