<h1 align="center">
<a href="https://prompts.chat">
Flash attention は、トレーニングと推論を加速するオプションです。H100、A100、RTX 3090、T4、RTX 2080 などの Turing、Ampere、Ada、および Hopper アーキテクチャの NVIDIA GPU だけが、flash attention をサポートできます。それをインストールせずに私たちのモデルを使用することができます。
Sign in to like and favorite skills
Flash attention は、トレーニングと推論を加速するオプションです。H100、A100、RTX 3090、T4、RTX 2080 などの Turing、Ampere、Ada、および Hopper アーキテクチャの NVIDIA GPU だけが、flash attention をサポートできます。それをインストールせずに私たちのモデルを使用することができます。
4.32.0 が望ましいです。
コードを最新のものに更新し、すべてのシャードされたチェックポイントファイルを正しくダウンロードしたかどうか確認してください。
qwen.tiktoken が見つかりません。これは何ですか?これはトークナイザーのマージファイルです。ダウンロードする必要があります。git-lfs を使わずにリポジトリを git clone しただけでは、このファイルをダウンロードできないことに注意してください。
コマンド
pip install -r requirements.txt を実行してください。このファイルは https://github.com/QwenLM/Qwen/blob/main/requirements.txt にあります。
はい、Web デモは
web_demo.py を、CLI デモは cli_demo.py を参照してください。詳しくは README を参照してください。
はい、
python cli_demo.py --cpu-only を実行すると、CPU のみでモデルと推論をロードします。
modeling_qwen.py の chat_stream 関数を参照してください。
これは、トークンがバイトを表し、単一のトークンが無意味な文字列である可能性があるためです。このようなデコード結果を避けるため、トークナイザのデフォルト設定を更新しました。コードを最新版に更新してください。
Qwen ではなく Qwen-Chat を読み込んでいないか確認してください。Qwen はアライメントなしのベースモデルで、SFT/Chat モデルとは挙動が異なります。
はい、量子化は AutoGPTQ でサポートされています。
コードを最新版に更新することで解決します。
NTK が適用されていることを確認してください。
config.json の use_dynamc_ntk と use_logn_attn を true に設定する必要があります(デフォルトでは true)。
SFTのコードは提供します。FastChat、Firefly、LLaMA Efficient Tuningなど、いくつかのプロジェクトではファインチューニングをサポートしています。近日中に関連コードを更新する予定です。
私たちのトレーニングでは、セパレータとパディングトークンとして
<|endoftext|> のみを使用しています。bos_id、eos_id、pad_id は tokenizer.eod_id に設定できます。私たちのトークナイザーについて詳しくは、トークナイザーについてのドキュメントをご覧ください。