低コストで高性能なDeepSeekの生成AIが世界中を席巻しています。米国のアプリダウンロードランキングでNo.1となり、トランプ大統領もその躍進に評価と懸念を表明しました。驚くべきは、その開発費用とプロセス。旧式のGPUと革新的な設計技術でOpenAIのプロダクトと同等以上の性能を実現させています。本記事ではDeepSeekのAI開発を支えた技術と取り組み、ノンハイパースケーラーの可能性を解説します。
目次

世界に驚きを与えた「DeepSeekインパクト」
DeepSeekは、2023年に中国で設立されたAI企業です。2025年1月20日にリリースされたAIモデル「DeepSeek-R1」はOpenAIの「Chat GPTo1」モデルに匹敵するとされ、世界に大きな衝撃を与えました。同月27日には、画像生成が可能なマルチモーダルAIモデル「Janus-Pro」をリリースしています。
中国企業は欧米諸国からの輸出規制や制裁によって、最新の計算リソースや半導体製造装置などを入手できません。そのため、DeepSeekは旧式のGPUやオープンソース化といった手法を利用してAI開発を進めました。そして、結果的に米国の生成AIモデル(ChatGPT、Claudeなど)と比べて、数十分の1程度のコストで初期モデル「V3」を作り上げることに成功したのです(560万ドル程度)。
DeepSeekを支えた技術と取り組み
DeepSeekは欧米の最新リソースにアクセスできない中、どのように高性能な生成AIを開発したのでしょうか?また、どのように低コスト化を実現したのでしょうか?ここでは、DeepSeekのAI開発を支えた技術と取り組みを解説します。
AIの新潮流「MoE」
DeepSeekが採用しているMoE(Mixture of Experts)は、複数の専門的なAIモデルを組み合わせる設計技術で、主な特長は以下です。
特長 | 説明 |
---|---|
役割分担 | それぞれの専門家AIモデルが得意な仕事を担当 |
無駄なく効率的 | 必要な専門家AIだけを使い、計算コストを圧縮 |
拡張性が高い | 新しい専門家AIの追加が可能 |
MoEは全ての専門家モデルを同時に動かすのではなく、必要な専門家モデルのみを効率的に稼働させます。そのため、計算リソースの節約につながります。また、拡張性もメリットです。新しいタスクや領域に対応する場合、最適化した専門家モデルを追加するだけで済むため、モデル全体を再学習する必要がありません。
一方で、MoEの導入には課題も存在します。例えば、MoEでは入力データを最適な専門家ネットワークに振り分ける「ゲーティング」という仕組みが欠かせません。
ゲーティングでは、自然言語の複雑な文脈や画像の細部を把握して精密に割り振る必要があるため、その設計や学習には高度なノウハウが求められます。また、特定の専門領域に学習サンプルが偏る「不均衡学習」のリスクもあるため、専門家モデル同士のバランスを取る工夫が不可欠です。
さらに、MoEは複数の専門家モデルそれぞれが膨大なパラメータを持つため、複数のコンピューターを使って、大規模な機械学習モデルを並行して学習させる手法である「分散学習」が前提となります。そのため、高性能なGPUやTPUを備えた大規模設備や、高速なネットワークが求められるのです。
日本でもMoEを採用したAIモデル作りは可能なのでしょうか?現状では、多くの壁が存在します。日本には自動車や金融など、大規模なデータを扱う企業はあるものの、米国や中国のように国内全体で膨大なデータを一括収集・管理する仕組みが整備されていません。
そのため、専門家モデルをトレーニングするための専門データを大量に収集するのは簡単なことではないのです。それゆえに、法整備やデジタルインフラへの投資拡大を通じて、日本語や独自の文脈に特化した学習データの確保や、本格的な分散学習環境の構築を進めていく必要があります。
また、GoogleやMetaのように研究成果やソースコードを広く公開する文化が、日本では根付いていません。日本企業がMoE技術を取り入れ発展させるには、オープンソースや論文発表を通じたグローバルな連携がポイントになります。
前述の通り、MoEは複数の専門家モデルを適切に選択しながら学習・推論を行う高度な技術です。
最適なルーティングアルゴリズムの開発(どの専門家モデルを使うかを決める仕組み)や、モデルの分散学習の効率化(大量の計算資源をどう管理するか)、メモリ消費や推論コストの最適化など、多くの課題があります。
そのため、一企業だけの力では技術の進化が遅れてしまう可能性があるのです。オープンソース化することで、世界中の研究者が改良を加え、技術の進展が加速し、優秀な人材も集めやすくなるという好循環が生まれます。
Reasoningモデルの採用
Reasoningモデルは、MoE上で設計された機械学習モデルです。より高度な推論能力をDeepSeekにもたらします。CoT(Chain-of-Thought)推論を用いて、問題(入力テーマ)を小さなステップに分解して解決。自らの出力を検証する能力があることから、誤りを特定し修正することも可能です。
また、従来の教師あり学習(Supervised Fine-Tuning: SFT)を省略し、強化学習(Reinforcement Learning: RL)のみで学習するため、大規模なラベル付きデータが必要ありません。このため、学習プロセスもコストも圧縮が期待できます。
オープンソース型のAI開発プロセス
DeepSeekモデルには、MITライセンスが適用されています。同社のモデルはオープンソース化されており、技術者や企業が自由に利用・カスタマイズすることが可能です。
オープンソース化することで、世界中のコントリビューターが技術課題や要望をフィードバックしてくるようになります。そのため、バグの早期発見や修正が迅速に進み、開発コストの低減につながります。
また、オープンソース化はプロダクトの普及にも大きな役割を果たします。誰でもカスタマイズできるため、各国のニーズに応じたDeepSeekモデルを作り出すことができるのです。すでに、サイバーエージェントは、DeepSeek R1をベースにした日本語最適化モデル(DeepSeek-R1-Distill-Qwen-32B-Japanese)をリリースしています。
MITライセンスの特徴 | 説明 |
---|---|
自由な使用 | 誰でも自由にソフトウェアを使用可能 個人・企業の制限なし |
カスタマイズ・再配布 | ソースコードの改変 改変版の再配布が認可 |
商用利用 | 商業目的での利用・販売も許可 |
著作権表示 | 再配布時には、元の著作権表示 MITライセンスの文面も表示 |
責任の免除 | 開発者や著作権者の責任免除 |
ここもチェック!
オープン化領域 | オープン化のメリット |
---|---|
ソースコード | AIモデルの再現・検証がしやすい バグ修正にコミュニティが参加可能 |
モデルアーキテクチャ | AIモデルの内部構造が把握できる 派生モデルの開発が容易 |
学習済みモデル (ウェイト、パラメータ) | 大規模学習の初期コストを節約 ファインチューニングや推論をすぐに実行可能 |
学習データセット | 再現性・透明性向上 追加学習や検証に活用 |
学習プロセス 論文(ナレッジ) | 再現実験や検証が容易 |
DeepSeek-R1のモデルウェイトは公開されています。研究者や開発者はモデルを検証したり、カスタマイズしたりすることが可能です。
一方で、学習に使用されたデータセットや学習プロセスの詳細、コードは公開されていません。学習に使用したテキストや画像などに著作権やプライバシーの問題が含まれるからだといわれています。ただし、これはDeepSeekに限ったことではありません。OpenAIやMetaもデータセットの入手プロセスは不透明なままです。
安全で法規制に対応したAIを開発・運用するためには、学習データセットのオープン化は重要です。しかし、利便性やクリエイティビティも追求する必要があります。AI開発企業にとって、学習データセットの公開をどこまで進めるかは大きな課題といえます。
計算リソース不足を補ったトレーニング手法
OpenAIやGoogleなどの大手企業は、最新の高性能GPU(NVidia H100など)を大規模に使うことが可能です。例えば、OpenAIはGPT-4の開発において、数万台の最新GPUを使用したとされています。
一方で、DeepSeekがAI開発に使用したGPUは型落ちの「H800」で、数は約2,000台程度といわれています。
この圧倒的な計算リソース格差を補ったのが、FP8混合精度トレーニングです。一部の計算を8ビット浮動小数点数(FP8)形式に移行することで、従来の16ビット浮動小数点数(BF16)形式と比べて、メモリ使用量を約半分に削減できます。また、不安定化を避けるため、状況に応じて高精度(FP32/BF16)と低精度(FP8)を使い分ける混合精度フレームワークを採用しています。
対抗するハイパースケーラーの次の一手
ハイパースケーラーとは、大規模クラウド基盤と膨大な計算リソースを持ち、世界中でクラウドサービスを展開している巨大IT企業(Google、Amazon、Microsoftなど)のことを指します。AI開発でもこれらのリソースを利用できるため、大きなアドバンテージがあります。
一方で、大規模な計算リソースを有せずとも、オープンソース化や新たなアーキテクチャ(MoEなど)の活用でノンハイパースケーラー(スタートアップ、中堅ITベンダー、大学の研究室など)でもAI開発が進むようになりました。
代表的な成功例こそがDeepSeekなのです。ノンハイパースケーラーはこれからどのようにして巨大資本に挑んでいくのでしょうか?また、既存のハイパースケーラーはどのように対抗していくのでしょうか?
AI開発において、ハイパースケーラーが有利な立場にあることは間違いありません。しかし、ノンハイパースケーラーの躍進に「何もしない」わけではありません。すでに強力なカードを有しているのです。

ハイパースケーラーは、世界各国の政治家や政府機関に対して相当規模のロビー活動を行っています。政策提案、研究資金の提供、地元経済への投資・雇用創出など関与の手段は様々です。
2025年1月、米国で計算リソースインフラを国家的に整備する計画「Stargate Project」が発表され、日本のソフトバンクグループも出資したことで話題になりました。Stargate Projectは、OpenAIやMicrosoft、Oracleといった既存のテック企業による最先端計算リソースの独占を加速させる可能性があります。少なくとも、クラウドベースのアクセスは米国とその同盟国に限定されます。
ハイパースケーラーはAIやクラウドサービスの需要増加に伴い、国際的な半導体サプライチェーンへの影響力を高めようとしています。半導体製造に関わるチョークポイント企業に対する直接投資だけではありません。GoogleやAmazonは、自社のAIインフラを支えるために独自のチップ開発を進めているようです。
半導体サプライチェーン企業との関係強化はノンハイパースケーラーにとって容易ではありません。それは資金面だけではなく、政治的な関係構築が必要になるからです。
米国は同盟国で構成される半導体サプライチェーン企業にも、中国やロシアなどへのプロダクト輸出の制限を要請しています。中国は最新のNvidia製品だけでなく、最新の半導体製造装置や材料が入手できないため、ノンハイパースケーラー(DeepSeek)に頼らざるを得なかったのです。
プラットフォームとデータの支配
ハイパースケーラーが握るカードで最も強力なものが、プラットフォームとデータの支配です。
AWS、Microsoft Azure、Google Cloud Platformは、2023年時点で全世界のデータセンター容量の約41%を占めるようになりました。そして、2029年までにそのシェアは60%に達すると予測されています。
また、Amazon、Microsoft、Googleなどのプラットフォーマーとしてのポジションにも注目です。小売りやサービス事業から独自データ(ユーザーの購買履歴、検索履歴、レビューなど)を大量に入手することが可能です。これらの収集データはデータセットの質を向上させ、AIモデルのパーソナライズに大きな役割を果たします。
これからハイパースケーラーは、プラットフォーマーとしてのポジションを最大限に活かすことで、ノンハイパースケーラーの挑戦を退けていくのではないでしょうか。
日本企業の勝ち筋は?
日本企業は、欧米の半導体サプライチェーンでいくつかのチョークポイントを押さえています。半導体のエッチング装置を製造する東京エレクトロン、シリコンウエハーの世界最大手メーカーの信越化学工業などは有名です。
また、米国の半導体輸出規制においても、最も干渉をうけないTier1に分類されています。このため最先端のGPUを比較的容易に入手できる立場にいます。これはAI開発競争を繰り広げるうえで大きなアドバンテージです。
また、前述の通りStargate Projectにもソフトバンクグループが主導的な役割で関与していることから、クラウドベースで米国の計算リソース利用も期待できます。
つまり、日本企業は中国企業とは異なり、ハイパースケーラーの計算リソースを利用でき、かつ独自に最先端GPUを用いてノンハイパースケーラーとしてAI開発を進めることもできるのです。
MoEとオープンソース化により、AI開発の低コスト化が可能であるならば、日本企業はハイパースケーラーのリソースを利用しつつ、ノンハイパースケーラーとしてイノベーションを進めることこそがベストプラクティスになるのではないでしょうか?
日本企業の勝ち筋 | ハイパースケーラー×ノンハイパースケーラーの相乗効果 |
---|---|
データ主権の確保 | 重要データは自社管理で、ハイパースケーラーへの依存を限定 国内法規制に準拠したデータ管理体制を構築 |
オンプレミスとクラウド最適化 | 機密性の高いAI開発はオンプレミスで実行 大規模トレーニングにはクラウドリソースを活用 |
パートナーシップの構築 | ニーズ補完で特許の共同利用 AIモデルのブラッシュアップ(開発と運用の分担) |
ここもチェック!
ハイパースケーラー×ノンハイパースケーラーのメリットを日本企業が享受するためには、専門人材の確保がカギとなります。MoEのゲーティングネットワーク設計・実装には高度なノウハウが必要です。
一方で、人材育成には時間がかかります。高度専門人材を海外からリクルートするのにも大きなコストが必要です。さらに、これらの専門人材はグローバル市場でも高い評価がされるため、日本以外を選択する可能性が高いのです。
また、オープンソース化に抵抗を示す企業もあるでしょう。これはリスクヘッジを重視する日本企業の特性といえるのかもしれません。しかし、低コストでAI開発を進める際に、オープンソース化は重要な戦略となります。
人材確保と企業風土の変革。これらの課題は即座に解決する問題ではありません。このような観点から、ハイパースケーラー×ノンハイパースケーラーのAI開発戦略を執れる日本企業は、2025年時点で限られているのではないでしょうか。
まとめ
DeepSeekは低コストと高いパフォーマンスが評価され、世界中で使われるようになりました。MoEやオープンソース化などで、スタートアップでもハイパースケーラーに対抗し得ることを証明できたことは大きな功績といえます。
これからのAI開発は、ノンハイパースケーラーがプレゼンスを強めていくのでしょうか?それとも、ハイパースケーラーが既存のパワーを活用し、挑戦を退けていくのでしょうか?
「ハイパースケーラー×ノンハイパースケーラー」戦略が日本を含めた欧米諸国で隆盛するのかもしれません。これからのAI開発競争をさらに注視すべきでしょう。
テック業界におけるデータとAIのトレンド(英語)
テクノロジー分野の200人以上の専門家を対象に調査を行い、AIの時代をどのように乗り越えているかを探りました。
