DeepSeek Bakenekoって何者?rinna渾身の日本語特化AIモデルをどこよりも詳しく解説
「DeepSeek Bakeneko」というキーワードで検索してたどり着いたあなた、このモデルの名前を見て「バケネコ?なんだそれ」と思った人も多いんじゃないだろうか。実はこれ、日本のAI企業「rinna株式会社」が2025年2月に公開した、日本語に徹底特化した大規模言語モデル(LLM)シリーズの愛称なんだ。ベースにはアリババのQwen2.5と、あの話題のDeepSeek R1が使われていて、日本語処理の精度が従来の蒸留モデルを大きく上回ると評判になっている。
この記事では、DeepSeek Bakenekoシリーズのモデル構成から学習方法、ベンチマーク結果、そしてOllamaやLM Studioを使ったローカル実行の方法まで、調査でわかった情報をまるごと整理して解説していく。「ローカルLLMに興味があるけど何を選べばいいかわからない」「日本語に強いAIモデルを探している」という人にも役立つ内容になっているので、ぜひ最後まで読んでみてほしい。
| この記事のポイント |
|---|
| ✅ DeepSeek Bakenekoとは何か、rinnaが開発した日本語特化LLMの全体像がわかる |
| ✅ モデルのラインナップ・学習方法・ベンチマーク結果を網羅的に把握できる |
| ✅ OllamaやLM Studioでのローカル実行手順と必要スペックが理解できる |
| ✅ CyberAgentモデルとの違いなど競合比較の視点も得られる |
DeepSeek Bakenekoの正体と特徴(rinna渾身の日本語LLMの核心)

- DeepSeek Bakenekoとは何か:rinna製の日本語特化32BモデルのAI回答
- Qwen2.5 Bakenekoシリーズのモデルラインナップは充実している
- DeepSeek R1蒸留の仕組みは「Chat Vector+ORPOの2段階」で行われている
- ベンチマーク結果では既存モデルを上回るスコアを記録している
- ライセンスはApache 2.0で商用利用も無料で可能
- リリース日は2025年2月13日で開発者3名によって作られた
DeepSeek Bakenekoとは何か:rinna製の日本語特化32BモデルのAI回答

DeepSeek Bakeneko(正式名称:DeepSeek R1 Distill Qwen2.5 Bakeneko 32B) とは、日本のAI企業rinna株式会社が開発・公開した、日本語処理能力を大幅に強化した大規模言語モデルだ。アーキテクチャの基盤にはアリババグループのQwen2.5(32Bパラメータ版)を採用し、そこにDeepSeek R1の知識蒸留を組み合わせることで、日本語での「思考力」を強化したモデルに仕上げられている。
「Bakeneko(化け猫)」という名前はrinnaが開発したQwen2.5ベースの日本語継続事前学習モデルのシリーズ名称だ。猫がテーマなのはrinnaブランド自体が親しみやすさを大切にしている文化から来ていると思われるが、名前に反してその中身は本格的な研究成果を詰め込んだモデルとなっている。
「このモデルは、DeepSeek-R1の蒸留バリアントであるrinna/qwen2.5-bakeneko-32bを、Chat VectorとORPO(Odds Ratio Preference Optimization)を使ってファインチューニングしたものです」
— 引用元:https://huggingface.co/rinna/deepseek-r1-distill-qwen2.5-bakeneko-32b
注目すべきは、単に既存の英語特化モデルを日本語化しただけではないという点だ。「日本語で学習したモデルにDeepSeek R1の推論能力を乗せる」 という独自のアプローチを取っており、これが他社のアプローチと大きく異なる部分になっている(詳しくは後述のCyberAgentとの比較で解説する)。
🔍 DeepSeek Bakenekoの基本スペック
| 項目 | 内容 |
|---|---|
| 正式モデル名 | DeepSeek R1 Distill Qwen2.5 Bakeneko 32B |
| 開発元 | rinna株式会社 |
| パラメータ数 | 約330億(33B) |
| アーキテクチャ | 64層・隠れ次元5,120のTransformerモデル |
| ベースモデル | rinna/qwen2.5-bakeneko-32b |
| 学習手法 | Chat Vector + ORPO |
| リリース日 | 2025年2月13日 |
| ライセンス | Apache License 2.0 |
このモデルが話題になった背景には、当時「DeepSeek R1」という中国発のAIモデルが日英両語で高い推論能力を示しながら、日本語処理においては課題が残っていたという状況がある。rinnaはその弱点を正面から解決しようとし、わずか1,200件の高品質な日本語データで蒸留学習を行うという、効率重視の研究アプローチで成果を出してみせた。
Qwen2.5 Bakenekoシリーズのモデルラインナップは充実している

DeepSeek BakenekoはBakenekoシリーズの一モデルに過ぎない。rinnaは2025年2月に、複数バリエーションからなる「Qwen2.5 Bakenekoシリーズ」を一気に公開した。それぞれ用途・特性が異なるため、何を使うかによって選び方が変わってくる。
🗂️ Bakenekoシリーズ全モデル一覧
| モデルタイプ | モデル名 | 特徴 |
|---|---|---|
| 日本語継続事前学習 | Qwen2.5 Bakeneko 32B | 日本語コーパスで追加学習した基盤モデル |
| 指示学習(会話)モデル | Qwen2.5 Bakeneko 32B Instruct | Chat Vector+SimPOで指示対応化 |
| 推論強化モデル | DeepSeek R1 Distill Qwen2.5 Bakeneko 32B | 本記事の主役。思考力強化版 |
| QwQ融合推論モデル | QwQ Bakeneko 32B | QwQを活用した推論強化版 |
| 強化版指示学習 | Qwen2.5 Bakeneko 32B Instruct V2 | MT-Benchスコアが最高水準 |
各モデルにはHuggingFace(HF)形式・AWQ量子化・GGUF量子化・GPTQ int8/int4など複数のフォーマットが用意されており、使用するハードウェアやフレームワークに応じて選択できるようになっている。
特に注目したいのは「Qwen2.5 Bakeneko 32B Instruct V2」で、Japanese MT-Bench(会話評価ベンチマーク)のスコアが最も高い。一方、DeepSeek R1蒸留版は「思考プロセスを持つ推論モデル」として位置づけられており、複雑な問題解決や長文の論理的分析が求められる場面で真価を発揮するとされている。
✅ モデル選びの大まかな指針
- 会話・チャット用途 → Instruct V2
- 論理的・多段階の推論が必要な作業 → DeepSeek R1 Distill版(本記事の主題)
- ローカルで軽量実行したい → GGUF量子化版
- 研究・ファインチューニング向け → HF(BF16)版
DeepSeek R1蒸留の仕組みは「Chat Vector+ORPOの2段階」で行われている

このモデルの技術的な肝は、「モデルマージ」と「蒸留+ORPO」の2段階プロセスにある。少し専門的になるが、なぜこのモデルが高い日本語性能を持つのかを理解するために、順を追って解説する。
ステップ1:Chat Vectorによるモデルマージ
まず、rinnaが独自に日本語継続事前学習を施した「qwen2.5-bakeneko-32b」を出発点にする。そこに、DeepSeek社がリリースした「DeepSeek-R1-Distill-Qwen-32B」からQwen2.5-32Bを引いた「差分ベクトル(Chat Vector)」を加算する。
rinna/qwen2.5-bakeneko-32b
+ 1.0 × (deepseek-ai/DeepSeek-R1-Distill-Qwen-32B − Qwen/Qwen2.5-32B)
これは「DeepSeekが学習した推論スキルの差分だけを取り出して、日本語強化済みのモデルに足し込む」という発想で、日本語の土台を壊さずに推論力を移植するためのテクニックだ。
ステップ2:ORPOによる蒸留ファインチューニング
マージしたモデルをさらに、DeepSeek R1が生成した1,200件の高品質な日本語サンプルデータでファインチューニングする。この時に使われるのが「ORPO(Odds Ratio Preference Optimization)」という手法で、参照モデルを必要とせずに好み学習ができる効率的な手法とされている。
「rinnaでは1,200件の日本語蒸留データを使って学習させたということなんですが、このデータの質がかなりいいんじゃないかなと思います」
— 引用元:https://nowokay.hatenablog.com/entry/2025/02/17/152827
🛠️ 学習プロセスのまとめ
| ステップ | 内容 | 使用技術 |
|---|---|---|
| ① 基盤モデル | Qwen2.5に日本語継続事前学習 | 独自コーパスによる追加学習 |
| ② モデルマージ | DeepSeekの推論差分を加算 | Chat Vector |
| ③ 蒸留学習 | 日本語1,200件でファインチューニング | ORPO |
この「少量だけど質の高いデータで蒸留する」アプローチが、コストを抑えながら日本語推論能力を高める鍵になっていると、技術ブログ等でも広く評価されている。
ベンチマーク結果では既存モデルを上回るスコアを記録している

モデルの実力を客観的に見る指標として、rinnaが公開しているベンチマーク結果を確認しておこう。評価には「Japanese LM Evaluation Harness」と「Japanese MT-Bench(1ターン・マルチターン)」の3種類が使われている。
📊 Japanese MT-Benchスコア比較(rinnaのベンチマーク結果より)
| モデル名 | Japanese LM Harness | MT-Bench 1ターン | MT-Bench マルチターン |
|---|---|---|---|
| Qwen/Qwen2.5-32B | 79.46 | — | — |
| rinna/qwen2.5-bakeneko-32b | 79.18 | — | — |
| Qwen/Qwen2.5-32B-Instruct | 78.29 | 8.13 | 7.54 |
| rinna/qwen2.5-bakeneko-32b-instruct | 79.62 | 8.17 | 7.66 |
| rinna/qwen2.5-bakeneko-32b-instruct-v2 | 77.92 | 8.86 | 8.53 |
| deepseek-ai/DeepSeek-R1-Distill-Qwen-32B | 73.51 | 7.39 | 6.88 |
| rinna/deepseek-r1-distill-qwen2.5-bakeneko-32b | 77.43 | 8.58 | 8.19 |
| Qwen/QwQ-32B | 76.12 | 8.58 | 8.25 |
| rinna/qwq-bakeneko-32b | 78.31 | 8.81 | 8.52 |
特筆すべきは、オリジナルのDeepSeek-R1-Distill-Qwen-32B(73.51)と比較して、BakenekoバージョンはJapanese LM Harnessで77.43と大幅にスコアが高い点だ。これは日本語継続学習の効果が如実に出ている結果といえる。
また、MT-Bench(会話力の評価)でも、オリジナルDeepSeekの7.39→8.58(1ターン)、6.88→8.19(マルチターン)と、大幅な改善が見られる。
「評価結果では、このモデルが前モデルより大きくスコアを改善しています」
— 引用元:https://aismiley.co.jp/ai_news/rinna-qwen2-5-bakeneko-32b/
注意しておきたいのは、すべての指標でトップではないという点だ。同シリーズの「Instruct V2」はMT-Benchで8.86/8.53と高スコアを出しており、「会話の自然さ」においてはInstruct V2が優勢とも見られる。DeepSeek蒸留版は推論・思考プロセスの品質で際立つモデルという位置づけになりそうだ。
ライセンスはApache 2.0で商用利用も無料で可能

DeepSeek Bakenekoシリーズ全体がApache License 2.0で公開されている。これは商用・非商用を問わず、無料で使用・改変・再配布できるオープンソースライセンスだ。
✅ Apache 2.0ライセンスで許可されること
- 商用製品・サービスへの組み込み
- モデルの改変・ファインチューニング
- 改変版の再配布
- 個人・研究利用
この点は、商用利用に制限がある一部のモデルと比べて大きなメリットとなっている。特に、企業が自社サービスにローカルLLMを組み込みたいケースや、研究機関が追加学習・評価を行いたいケースでは、ライセンスの自由度は重要な選定基準になる。
ただし「Apache 2.0だから何でもOK」というわけでもなく、ベースに使われているQwen2.5やDeepSeek R1それぞれのライセンス条件も踏まえて確認することが実運用上は推奨される。一般的には個人・研究レベルでの活用は問題ないと考えられるが、大規模な商用展開を検討する際は関係するライセンスをすべて精査しておくのが安全だろう。
リリース日は2025年2月13日で開発者3名によって作られた

Bakenekoシリーズのリリース日は2025年2月13日。開発チームは以下の3名のエンジニアが担当している。
👥 開発チームメンバー
| 名前 | 役割 |
|---|---|
| Xinqi Chen | 開発担当 |
| Toshiaki Wakatsuki | 開発担当 |
| Kei Sawada | 開発担当 |
3名という小規模なチームながら、日本語LLMのベンチマーク上位に食い込むモデルを仕上げたことは注目に値する。Kei Sawadaはrinna社の研究成果をLREC-COLING 2024で発表した実績を持つ研究者でもある。
リリース当日には技術系ブロガーや研究者たちが「どこよりも品質が高い」「o1より良いのではと思うことすらある」といったレビューを発表し、SNSでも大きな反響を呼んだ。特に日本語AIモデルコミュニティでは、「日英蒸留版と比較して筋が良い」という評価が相次いだ。
「CyberAgent からもDeepSeek R1の蒸留モデルを日本語化したものが出ているのだけど、これに比べて『いいとこついてるなぁ』となります。というか、o1よりいいんではと思うことすらある」
— 引用元:https://nowokay.hatenablog.com/entry/2025/02/17/152827
DeepSeek Bakenekoの使い方と実行環境(ローカルで試す完全ガイド)

- OllamaとLM StudioでDeepSeek Bakenekoを動かす方法は確立されている
- GGUFの量子化オプションは用途に合わせて6段階から選べる
- 必要なVRAM・メモリの目安は量子化レベルによって変わる
- HuggingFaceからDeepSeek Bakenekoを直接ダウンロードできる
- CyberAgentモデルとrinnaモデルの違いは「蒸留の方向性」にある
- DeepSeek Bakenekoの日本語AI回答品質は思考プロセスが丁寧である
- 総括:DeepSeek Bakenekoのまとめ
OllamaとLM StudioでDeepSeek Bakenekoを動かす方法は確立されている

DeepSeek BakenekoはGGUF形式のモデルが公式に提供されているため、OllamaやLM Studioといった一般ユーザー向けのローカルLLMツールから簡単に実行できるのが大きな魅力だ。
Ollamaでの実行方法(Q8_0版の場合)
ollama run hf.co/rinna/deepseek-r1-distill-qwen2.5-bakeneko-32b-gguf:deepseek-r1-distill-qwen2.5-bakeneko-32b-q8_0.gguf --verbose "おすすめの日本のアニメについて教えてください。"
軽量版(Q4_0)を使いたい場合は以下のコマンドに変更する:
ollama run hf.co/rinna/deepseek-r1-distill-qwen2.5-bakeneko-32b-gguf:deepseek-r1-distill-qwen2.5-bakeneko-32b-q4_0.gguf
LM Studioでの実行方法
LM Studioのモデル検索(Model Search)では直接見つからない場合があるため、lmsコマンドを使ってダウンロードする方法が紹介されている。
lms get https://huggingface.co/rinna/deepseek-r1-distill-qwen2.5-bakeneko-32b-gguf@q8_0
「LM Studioを開いてダウンロードしたモデルをロードします。コンテキスト長を大きくするため、Manually choose model load parametersをオンにします。Context Lengthを131072に変更し、Load Modelを実行します。」
— 引用元:http://apexugj.blogspot.com/2025/02/using-deepseek-r1-qwen-bakeneko-by-rinna.html
🔧 ツール別のAPIエンドポイント設定
| ツール | エンドポイントURL | モデル名指定 |
|---|---|---|
| LM Studio | http://localhost:8080/v1/chat/completions | deepseek-r1-distill-qwen2.5-bakeneko-32b@q8_0 |
| Ollama | http://localhost:11434/v1/chat/completions | hf.co/rinna/deepseek-r1-distill-qwen2.5-bakeneko-32b-gguf:q8_0 |
既存のOpenAI互換APIを使ったアプリケーションのエンドポイントを書き換えるだけで、DeepSeek Bakenekoをローカル環境で使えるようになるというわけだ。
GGUFの量子化オプションは用途に合わせて6段階から選べる

ローカルで動かす際に最初に決めなければならないのが「量子化レベル」だ。量子化とは、モデルの精度を少し落とす代わりにファイルサイズや必要メモリを大幅に削減する技術のこと。DeepSeek Bakenekoは6種類の量子化バリエーションが用意されている。
📦 GGUFモデルのサイズ・量子化オプション一覧
| 量子化 | ファイルサイズ | 精度への影響 | 推奨用途 |
|---|---|---|---|
| Q2_K | 約12.3 GB | 最も低下 | 超省メモリ環境 |
| Q4_0 | 約18.6 GB | やや低下 | バランス型(一般向け) |
| Q5_0 | 約22.6 GB | 中程度 | 品質・容量のバランス |
| Q6_K | 約26.9 GB | 軽微 | 高品質寄り |
| Q8_0 | 約34.8 GB | ほぼ無損失 | 高品質重視 |
実際にQ8_0モデルを試したユーザーの報告では「おすすめの日本のアニメを教えてください」というプロンプトに対して、986トークンの詳細な回答を約58秒(17トークン/秒)で出力したとのことだ。
一方、Q4_0であれば必要メモリが18GB程度に抑えられるため、16〜24GB程度のVRAMを持つ一般的なゲーミングPCのGPUやMacのUnified Memoryでも動作が期待できる。
✅ 自分の環境に合った量子化選びのポイント
- メモリ16GB以下 → Q2_K(品質は下がる)
- メモリ18〜24GB → Q4_0(十分実用的)
- メモリ36GB以上 → Q8_0(ほぼフル品質)
- Mac Studio M2 Ultra(192GB)など → Q8_0でも余裕
必要なVRAM・メモリの目安は量子化レベルによって変わる

「うちのPCで動くかな?」というのが多くの人の最大の関心事だと思う。DeepSeek Bakenekoは33B規模のモデルなので、それなりのメモリが必要になる。
💻 動作環境の目安
| 環境 | メモリ量 | 使えるバリエーション |
|---|---|---|
| ゲーミングPC(VRAM 16GB) | 16 GB | Q2_K(動作するが品質低下あり) |
| ゲーミングPC(VRAM 24GB) | 24 GB | Q4_0が現実的な選択肢 |
| Mac Book Pro M3 Pro以上 | 36 GB以上 | Q8_0対応 |
| Mac Studio M2 Ultra | 192 GB | すべての量子化に対応 |
| サーバー・ワークステーション | 40 GB以上(GPU VRAM) | フルBF16モデルも可能 |
参考として、あるユーザーがMac Studio 2023(M2 Ultra、192GB)でQ8_0モデルを動かした際のレポートによると、「プロンプト評価速度:1.18トークン/秒、生成速度:17.01トークン/秒」という数値が報告されている。
「実行環境:Mac Studio 2023、Chip: Apple M2 Ultra、Memory: 192 GB、macOS: Sequoia 15.3。Q8_0のものを使っているので、VRAM が 36 GB 程度必要です」
— 引用元:https://note.com/schroneko/n/n261cb1028c4b
また、VRAM 16GBのGPU環境(RTX 4080など)では、Q2_Kの2bit量子化で動かしているユーザーも存在する。品質は落ちるが「それでもかなりいい感じ」というレビューもあり、試してみる価値はあるだろう。
HuggingFaceからDeepSeek Bakenekoを直接ダウンロードできる

モデルの取得先は主にHuggingFace(Hugging Face Hub)だ。rinnaの公式アカウントから全モデルが公開されており、GGUFモデルは以下のURLで直接アクセスできる。
🌐 主要なモデルページURL
| モデル | URL |
|---|---|
| DeepSeek R1 Distill Bakeneko 32B(BF16) | https://huggingface.co/rinna/deepseek-r1-distill-qwen2.5-bakeneko-32b |
| DeepSeek R1 Distill Bakeneko 32B(GGUF) | https://huggingface.co/rinna/deepseek-r1-distill-qwen2.5-bakeneko-32b-gguf |
| Qwen2.5 Bakeneko 32B Instruct | https://huggingface.co/rinna/qwen2.5-bakeneko-32b-instruct |
Pythonのtransformersライブラリを使う場合のセットアップコードは以下の通り:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "rinna/deepseek-r1-distill-qwen2.5-bakeneko-32b"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
device_map="auto",
torch_dtype=torch.bfloat16,
)
HuggingFaceのInference Providers経由でAPIとして使いたい場合は、Featherless AI経由でのテキスト生成が対応しているとのことだ(ただし利用条件はプロバイダー次第)。
Ollamaを使う場合は、HuggingFaceのGGUFモデルをOllamaから直接ロードできる機能(hf.co/...形式)を活用すると、ダウンロードから実行までがスムーズだ。
CyberAgentモデルとrinnaモデルの違いは「蒸留の方向性」にある

日本語向けDeepSeek R1蒸留モデルとして、CyberAgentからも同時期にモデルが公開されており、よく比較対象として挙げられる。両者の最大の違いは「どの方向で日本語化したか」という点にある。
🔄 rinnaとCyberAgentの蒸留アプローチ比較
| 項目 | rinna(Bakeneko) | CyberAgent |
|---|---|---|
| ベース | Qwen2.5に日本語継続学習済 → DeepSeek蒸留 | DeepSeek-R1蒸留済Qwen32B → 日本語追加学習 |
| 方向性 | 日本語モデルに推論力を注入 | 英語推論モデルを日本語化 |
| 蒸留データ | DeepSeek R1が生成した日本語1,200件 | 日本語追加学習(詳細非公開) |
| 特徴 | 思考プロセスが整然として意図が明確 | 出力品質は良好だが思考の筋が弱い傾向 |
あるエンジニアブログには「CyberAgentはDeepSeek自身がQwenに対してDeepSeek R1を蒸留したモデルに日本語追加学習を行っている。一方で、rinnaはQwenを日本語追加学習したものに、DeepSeek R1から作った日本語蒸留データを適用している」と解説されており、技術アプローチが根本的に異なることがわかる。
「rinnaのモデルでは『4択形式なので、誤りやすい選択肢を含めるべきでしょう』『ユーザーが混乱しそうなポイントを問います』『ユーザーが理解しているかどうかを確認できるような問題にします』といった意図が明確になっています」
— 引用元:https://nowokay.hatenablog.com/entry/2025/02/17/152827
つまり実際の推論プロセスを見ると、rinnaモデルは「何を考えながら答えを出しているか」が明示的でわかりやすいという特徴があり、出力の信頼性評価がしやすいというメリットがあるようだ。
DeepSeek Bakenekoの日本語AI回答品質は思考プロセスが丁寧である

実際にDeepSeek Bakenekoを使ったユーザーレビューをまとめると、「出力品質が高い」「思考プロセスが明確」という評価が多い。特に、DeepSeek R1系モデルの特徴である「回答方針を考えてから答える」という思考フェーズが、日本語でも自然に展開される点が評価されている。
実際の出力例として「おすすめの日本のアニメを教えてください」というプロンプトへの応答では、モデルがまず以下のような思考プロセスを出力している(一部抜粋):
「ユーザーが日本のアニメを求めていて、具体的な好みや視聴したことがある作品について何も言及していないので、一般的に人気があり評価が高い作品を選ばなければならない。ジャンルも広いので、いくつかのカテゴリーからバランスよく選ぶ必要がある」
このように、回答に至る推論プロセスをユーザーが読み取れる形で出力するという点がDeepSeek R1蒸留系モデルの特徴であり、単純にファクトを返すだけのモデルとは異なる使い心地を生む。
📝 DeepSeek Bakenekoの出力特性まとめ
| 評価項目 | 評価内容 |
|---|---|
| 日本語の自然さ | 高品質。文体の乱れが少ない |
| 思考プロセスの透明性 | 高い。回答前の検討過程が見える |
| マルチターン対話 | MT-Benchで8.19と高スコア |
| 専門的な資料読解 | 100ページ超のPDF解析にも対応(ユーザー報告) |
| 出力速度 | Q8_0で約17トークン/秒(Mac M2 Ultra) |
一点注意として、LM Studioでこのモデルを使う際は「思考タグのフォーマットがオリジナルDeepSeek R1と少し違う」ため、Prompt Templateを書き換えないとThoughts(思考部分)として自動認識されないケースがあるという報告もある。設定の確認が必要だ。
総括:DeepSeek Bakenekoのまとめ

最後に記事のポイントをまとめます。
- DeepSeek Bakenekoとはrinna株式会社が2025年2月13日にリリースした、Qwen2.5とDeepSeek R1をベースにした日本語特化LLMシリーズである
- 正式モデル名は「DeepSeek R1 Distill Qwen2.5 Bakeneko 32B」で、パラメータ数は約33Bである
- 学習は「Chat Vectorによるモデルマージ」と「ORPOによる蒸留ファインチューニング」の2段階で行われている
- 蒸留に使用したデータはDeepSeek R1が生成した日本語1,200件のみで、データ効率が高い手法である
- ライセンスはApache 2.0で、商用・非商用問わず無料で利用・改変・再配布が可能である
- Bakenekoシリーズには「基盤モデル・Instruct・DeepSeek蒸留・QwQ融合・Instruct V2」の5種類が存在する
- GGUFフォーマットで6種類の量子化(Q2_K〜Q8_0)が提供されており、必要メモリは約12〜35GBと幅広い
- OllamaとLM Studioからローカル実行が可能で、HuggingFaceのモデルをそのまま指定できる
- CyberAgentモデルとは「蒸留の方向性」が根本的に異なり、rinnaは日本語モデルに推論力を注入する方法を採用している
- ベンチマーク上、オリジナルのDeepSeek-R1-Distill-Qwen-32BよりJapanese LM Harnessスコアが大幅に高く、日本語性能の改善効果が確認されている
- 実際の出力では思考プロセスが透明で意図が明確という評価が多く、信頼性評価がしやすいという特徴がある
- LM Studioで使用する際はPrompt Templateの書き換えが必要な場合があるため注意が必要である
記事作成にあたり参考にさせて頂いたサイト
- https://huggingface.co/rinna/deepseek-r1-distill-qwen2.5-bakeneko-32b
- https://www.promptlayer.com/models/deepseek-r1-distill-qwen25-bakeneko-32b-gguf/
- https://huggingface.co/rinna/deepseek-r1-distill-qwen2.5-bakeneko-32b-gguf
- https://github.com/continuedev/continue/issues/6749
- https://huggingface.co/rinna/qwen2.5-bakeneko-32b-instruct
- https://note.com/schroneko/n/n261cb1028c4b
- https://aismiley.co.jp/ai_news/rinna-qwen2-5-bakeneko-32b/
- https://nowokay.hatenablog.com/entry/2025/02/17/152827
- http://apexugj.blogspot.com/2025/02/using-deepseek-r1-qwen-bakeneko-by-rinna.html
- https://x.com/kis/status/1891080845206684021
各サイト運営者様へ
有益な情報をご公開いただき、誠にありがとうございます。
感謝の意を込め、このリンクはSEO効果がある形で設置させていただいております。
※リンクには nofollow 属性を付与しておりませんので、一定のSEO効果が見込まれるなど、サイト運営者様にとってもメリットとなれば幸いです。
当サイトは、インターネット上に散在する有益な情報を収集し、要約・編集してわかりやすくお届けすることを目的としたメディアです。
引用や参照の方法に不備、あるいはご不快に感じられる点がございましたら、お問い合わせフォームよりご連絡ください。
今後とも、どうぞよろしくお願いいたします。
