CZは中国系の大学3年生に1100万ドルのシードラウンド投資を行い、教育エージェントを設立しました。
?原文タイトル:《赵长鹏投了一个华人大三学生,1100 万美元种子轮,做教育 Agent》
原文著者:極客公園傘下の起業家コミュニティ Founder Park
華人大学3年生、1100万ドルのシードラウンド、シリコンバレーの学生起業で現在の資金調達最高製品。
主打一句話で個人専用の教育/解説動画を生成する、K12向けの教育エージェント製品VideoTutorが、本日1100万ドルのシードラウンド資金調達を完了したことを発表した。このラウンドの資金調達はYZi Labsがリードし、百度ベンチャーキャピタル、錦秋基金、Amino Capital、BridgeOne Capital、そして多くの著名投資家が共同で参加した。
これはYZi Labsが投資した初のAI製品会社でもある。
創業者のKai Zhao(趙凱)は、VideoTutorがCZおよびYZi Labsの投資チームの認識と支持を得て、最終的にYZi Labsがこのラウンドのリードを務めたと述べた。彼らは10以上のTS(投資意向書)を受け取り、最終的にこれらの企業を選択した。
5月14日に初版製品をオンラインにし(Founder Park製品マーケットで初発表)、市場の認識とPMFの検証を得て、5ヶ月足らずでこの1100万ドルのシードラウンド資金調達を完了した。
Kaiにとって、彼らがこの資金調達を得られた核心的な理由は、正しい方向性の下で「小天才チーム」が可視化学習の方法でK12トラックのアメリカの大学入試学習の痛点を解決したことだ。
「この分野は若者が取り組むのに適しており、非常に優れたエンジニアリング能力を持ち、創業者自身も非常に良いインサイトと経験を持ち、実行力が非常に速い。」
彼らだけでなく、Cursor、Mercor、Pika、GPTZeroなど、シリコンバレーの大学生たちは、次々と資金調達の新記録を打ち立てるAI製品を使って、AI起業に対する認識を刷新している。
AI時代の起業は、本当に少し違ってきた。
私たちはVideoTutorの若者たちと話をし、なぜ彼らがこのシードラウンドの資金調達を得られたのか、現在のシリコンバレーの起業がどのように変化しているのか、そしてなぜ彼らが国内の大手企業の社員を採用したいのかを知りたかった。
インタビューゲスト:CEO Kai Zhao、CTO James Zhan。
インタビュー&編集 | 万戸
以下はインタビュー内容で、Founder Parkが編集整理したもの。

K12トラック、可視化学習が真の方向性
Founder Park:これほど多くの機関があなたたちを高く評価している中で、あなたの見解では、どの点が彼らを感動させたと思いますか?
Kai:まず第一に、方向性が正しいことです。AI教育というトラックは非常に潜在能力と展望があります。私たちが切り込んでいる教育分野はアメリカの大学入試SAT、APです。ターゲットユーザーはK12の高校生で、私たちとこのユーザー群とのギャップは非常に小さく、基本的に世代間のギャップはありません。私たちは全ての受験学習サイクルを経て、試験と受験の痛点がどこにあるのかを知っており、本当にこの人々の痛点を解決する製品を作ることができます。
次に、チームが非常に優秀です。JamesはGemini出身で、GoogleではAIエンジニアリングとアルゴリズムのコアエンジニアを務めていました。私自身は3回の教育起業経験があり、大学1年生の時から教育ソフトウェアを作って起業し、大学2年生の時にはMathGPTProの設立に参加し、そのプロジェクトは奇績創壇に選ばれました。教育製品を成功裏に構築した経験があります。
第三に、私たちが取り組んでいるAI教育分野の核心はアニメーションエンジンであり、私たちはVideoTutorのコア開発者であり、核心技術を最も理解しているチームで、アニメーションエンジンを非常に正確にレンダリングすることができます。
チーム自体には非常に良いマーケティングの遺伝子があり、どのように広めるかを知っています。
VideoTutorはアメリカの主流VCの投資コンセンサスに非常に合致しており、「小天才チーム」と呼ばれています。これはこの分野が若者に適していることを指し、非常に優れたエンジニアリング能力を持ち、創業者自身が非常に良いインサイトと経験を持ち、実行力が非常に速いことを意味します。私はこれが全ての投資家が評価できる共通の理由だと思います。

VideoTutorがYZi Labs EASY Residency Demo Dayでニューヨーク証券取引所に登場
Founder Park:あなたたちの製品は教育業界のどの核心的な問題を解決したいと考えていますか?
Kai:現在市場にある学習製品は、主に2つのカテゴリに分けられます:能動的学習製品と受動的学習製品。受動的学習製品、例えば字節のGauth、Chegg、AnswersAiなどは、私たちが「宿題解答」(Homework Help)と呼ぶシーンをカバーしており、学習の流れは非常に短く、主に学生が宿題解答のために支払います。
一方、VideoTutorは能動的学習シーンをカバーしており、学生の学習動機を考慮する必要はありません。なぜなら、彼らは学ぶ必要があり、試験を受ける必要があるからです。例えばアメリカの大学入試SAT、APです。このシーンでは、可視化の痛点ニーズが大量に存在します。アメリカの大学入試の80%の内容は関数、微積分などの複雑な画像レンダリングが必要な知識に関わっています。VideoTutorのアニメーションエンジンはこのシーンを非常によく解決できます。

さらに、この分野の客単価は非常に高いです。アメリカでは毎年260万人の学生がSAT試験を受ける必要があり、支払いニーズは非常に大きいです。オフラインのSATコースは非常に高額で、パッケージではなく時間単位で請求され、平均して1時間150ドルから始まり、大部分は230ドルで請求されます。多くの学生と親は支払って学ぶことを選びます。しかし、VideoTutorは教師のトレーニングをうまく平行移動または置き換えることができ、現段階ではAI生成の動画と教師のトレーニング内容はほぼ違いがありません。これにより、学生は最低のコストで自分専用のAIパーソナライズされた受験教師を持つことができます。
Founder Park:あなたたちがこの製品を作ることを決定したきっかけは何ですか?
Kai:実は私たちの前に、スタンフォードにGatekeep Aiというチームがありました。彼らも可視化学習を目指していました。その時、私はこの方向性の影響力に気づいていました。最初の数回の起業では、皆が教育製品を作る際に基本的にGPTのAPIを接続し、ChatGPT Wrapperのような製品を作っていました。しかし、私たちは、単にテキストのQ&Aに基づく製品には限界があることに気づきました。CheggやGauthのビジネスが下降しているのが見えます。多くのシーンがChatGPTに取って代わられ、学生は20ドルを支払ってChatGPTを使えば多くの宿題の問題を解決できるからです。
APIを使った最適化レイヤーの製品は限界に達しています。
しかし、多モーダル視覚生成には非常に大きな前景があります。なぜなら、アメリカの大学入試の分野には非常に多くの可視化学習のシーンが存在するからです。残念ながらGatekeepは良いスタートを切りましたが、続けることができませんでした。なぜなら、彼らは少し早くリリースし、当時の基礎モデルのプログラミング能力はまだ成熟しておらず、GPT-4もまだリリースされていませんでした。さらに、数学アニメーションエンジンはレンダリングとアルゴリズムに関わるため、彼らはこの問題を克服できませんでした。しかし、私たちのチームはアニメーションエンジンの全てのコア開発を掌握し、この問題を解決し、動画レンダリングを非常に正確にしました。
PMF:ユーザーの支払い意欲が非常に強い
Founder Park:あなたたちの製品がオンラインになった後、いくつかの学校と協力関係を結びました。あなたたちの見解では、いつ、またはどの機能が「この製品は正しい、痛点を見つけた」と感じさせ、PMFを見つけたと感じましたか?
Kai:3つの次元から説明できます。
まず、収益指標の次元から見て、現在までにVideoTutorは1000社の企業からAPIリクエストを受けており、アメリカのすべての著名な大規模教育機関を含んでいます。さらには多くの学校がサービスを購入したいと考えています。C端ユーザーの意向はより直接的で、ある学生の親は投資家でもあり、製品を体験した後、製品をすべての親戚や友人に試用させ、全員が支払う意欲を示しました。そして、彼は私の電話番号をどこからか入手し、私にメッセージを送り、私たちに投資したいと言いました。C端ユーザーには非常に強い支払い意欲があります。
第二点は、ユーザーのニーズの側面からです。なぜアメリカのオフラインの1対1の家庭教師教育がそれほど強いのでしょうか?それは親が1対1の教育効果が良いと考え、そのためにお金を支払うからです。現在、多モーダルAI技術は人間のように1対1の教育効果を実現でき、質問に対して即座に答えます。また、アメリカのオンライン1対1の教育教師が録画したビデオ講義は、実際にはAI生成のビデオと違いがありません。これは私が言う「ニーズの平行移動」です。学生が高額で購入する録画コースは、私のAI生成のものと違いがないので、なぜAIを使わないのでしょうか?コストが低く、教育効果が高いからです。
私たちは多くの学生から非常に前向きなフィードバックを受けており、多くの教師もこの製品を広めたいと考えています。初期の完了率と使用時間は特に良好です。現在選別された200人のシードユーザーは、すべて初期に蓄積されたものです。
第三点は、製品のテイストとセンスです。あなたが絶えず行うと、教育業界全体の進歩から、学生と親の支払いの核心ニーズ、そして製品自体の進化まで、逆に考えると、全体の論理は閉じています。したがって、これら3つの次元から見ると、PMFはすでに十分であると感じます。最も核心的なのは、支払い意欲が非常に強いことです。

FIZZとの協力関係を結びました
Founder Park:多くのユーザーが自発的に支払いを希望し、また投資を希望して連絡してきます。
Kai:そうです。SAT、APのこの分野では、支払い意欲がもともと非常に強いです。この分野の客単価は100ドルから200ドルに達し、オフラインの授業はさらに高額で、800ドルかかることもあります。アメリカには260万人の学生がSATを受ける必要があり、そのうち37%の学生が自発的に支払います。これは支払い意欲と需要が非常に強い市場です。私たちの製品は非常に良いニーズの平行移動を実現できます。
Founder Park:SATのこのトラックでは、受験生にとって、リアルな教師とAIのどちらを信頼するのでしょうか?
Kai:現在、AIはアメリカの大学入試SAT、APのレベルの問題に対して、基本的に事実上の誤りを起こすことはほとんどありません。この状況で、なぜAIがオフラインの家庭教師よりも優れているのでしょうか?一つは安価で、もう一つは学生がどんな問題でも何度でも質問できることです。愚かな質問をした場合、教師がどう思うか、または不耐性を示すことを心配する必要はなく、24時間いつでもどこでも学ぶことができます。
さらに、この市場は平行移動可能で、アメリカ市場を終えた後、カナダやイギリスのA-Level試験などに平行移動できます。支払いニーズは非常に大きいです。
Founder Park:支払いの部分について、現在どのように考えていますか?
Kai:私たちは月額サブスクリプションを提供しており、学習結果に基づいて支払うオプションもあります。私は現在、AIが結果に基づいて支払うことができると考えています。例えば799ドルを支払えば、あなたの子供がSAT数学で満点を取ることを保証します。
Founder Park:しかし、試験結果に基づいて支払う場合、学生の個人の能動性も考慮する必要がありますよね?
Kai:これは国内の大学入試では難しいかもしれません。なぜなら、大学入試の評価ポイントは非常に多く、千以上あります。しかし、アメリカの大学入試SATは62の評価ポイントしかなく、そのうち50は通常の評価ポイントで、大部分の学生には問題ありません。残りの12の評価ポイントも基本的に習得できます。学生の論理レベルに問題がない限り、基本的に学べないということはありません。また、AIの効率向上効果は非常に顕著です。
実際、多くのアメリカのオンライン家庭教師もこのサービスを提供しています。あなたが教師に1800ドルを支払えば、教師が子供を指導し、成功率は基本的に100%です。なぜなら、SATの評価ポイントは固定されているからです。学生の知能レベルが正常であれば、基本的に問題はありません。しかし、大学入試はそうではありません。大学入試では短期間で成績を上げることはできません。また、国内の大学入試では点数差を広げる必要があり、難問が出題されますが、アメリカの大学入試には絶対的な難問は存在しません。なぜなら、主に知識点の習得を評価しているからです。
結果に基づいて支払うことは、以前の教科書の教師がすでに使用しているモデルであり、この前提条件を備えています。
Founder Park:あなたたちの価格設定において、モデルコストは悩みの種ですか?割合は高いですか?
Kai:この分野の客単価は非常に高く、69ドルからの月額料金で始まります。モデルコストは現在非常に安価で、問題ありません。教育業界はコーディング分野とは異なり、皆が価格競争に陥っているわけではありません。なぜなら、コーディングは長い文脈をサポートする必要があるからです。
高校生向けの製品、ウェブ版が最も重要
Founder Park:前回、あなたが言ったように、初版のプロトタイプは約2ヶ月で完成しました。当時の開発サイクル、例えば分業、どの機能を実装するか、どの機能を実装しないかはどのように考えましたか?
Kai:私たちのチーム全員の共通認識は、イテレーションを迅速に行うことです。なぜなら、早く行動することで早期ユーザーのフィードバックを迅速に得ることができるからです。
最初のバージョンをTwitterで発表した後、大きな反響を呼び、多くのユーザーを獲得しました。しかし、これらのユーザーの多くはプログラマー、投資家、またはテクノロジー愛好者であり、私たちは彼らを「テクノロジーの先駆者」と呼ぶことができます。その段階では、彼らから得られるフィードバックは比較的分散しており、あまり価値がありませんでした。やはり、広範なユーザーの中から本当に核心的なシードユーザー、つまり質の高い高校生を選別し、コンサルティングの方法で有用なフィードバックを得る必要があります。
私たちが得た核心的なフィードバックは、動画レンダリングの精度が100%に達する必要があるということです。これは最も重要な最適化ポイントです。UIが美しいかどうか、または異なるTTSの声色選択をサポートするかどうかなどの機能はすべて削除されました。製品の核心に戻ると、私たちが行っているのは理科のシーンの知識学習であり、したがってグラフィックレンダリングの精度が核心です。
Founder Park:生成時間は当時どのように取捨選択しましたか?
Kai:その時の最高のピーク時間は約6分でした。当時の主要な考慮事項は、普通の問題の解説と知識点の解説は6分を超えてはならないということでした。しかし、その後のフィードバックで、学習能力があまり高くない学生が、内容をもう少しゆっくり、深く説明してほしいと希望していることが分かりました。私たちは、時間に制限を設けるべきではなく、むしろユーザーの学習能力に依存すべきだと認識しました。
Founder Park:現在、最長でどのくらいの時間になりますか?
Kai:最長で1時間以内に達するはずです。質問を続けることができます。リアルタイムで生成しながら交流しますが、この機能は最近追加されたもので、最初のバージョンにはありませんでした。
Founder Park:当時考えていたが、後に重要ではないと判断して先に進まなかった機能はありますか?
Kai:例えばアプリです。当時、アプリを迅速に開発すべきかどうかを考えましたが、後にアメリカの学生の大部分が基本的にLaptopやiPadを使って学んでいることが分かりました。アメリカのほとんどのK12学校は学生にChromebookを配布しており、コンピュータが高度に普及しています。高校生は基本的に一人一台のコンピュータを持っており、学習シーンにおけるスマートフォンの占有率は5%未満で、非常に低いです。
Founder Park:したがって、教育または学生向けの製品であれば、ウェブ版が最初に作成されるべきであり、アプリはそれほど重要ではないということですね。
Kai:はい、当時すでにこのデータを知っていました。結局、アメリカで何年も学んできたからです。その後、初期の数万ユーザーから100人の学生を選んで調査を行いましたが、その100人の学生の90人以上がコンピュータを持っていたため、私たちはこの点をさらに確信しました。
Founder Park:あなたたちが最初のバージョンをオンラインにした時、K12のグループをターゲットにしていたのですか?
Kai:はい、その後もこのグループをターゲットにしています。私たちはGauthとは競合ではなく、むしろ試験トレーニングシーンを作っています。アメリカの多くの高校生は、オフラインのトレーニングやオンライン学習プラットフォームを選択するため、VideoTutorはこのニーズをうまく平行移動させました。
Founder Park:K12は少なくとも今後2年間の核心ユーザー群になるのでしょうか?
Kai:おそらく2年以内の核心指標です。
大モデルを使用するが、大モデルに依存しない
Founder Park:あなたたちの現在の技術実現方案について簡単に紹介してください。VideoTutorはコースや図表の生成において、他の動画生成モデルよりもはるかに優れています。多くのモデルが文字さえ正確に生成できないとき、あなたたちの技術は驚くべきものです。
James:私たちが生成する動画には文字と図形の両方があります。大まかな生産プロセスは、大言語モデルに文字と対応するアニメーション指示を生成させ、その後アニメーション指示が私たちのアニメーションエンジンでレンダリングされ、最終的に動画として表示されます。
文字部分は比較的簡単で、大言語モデルにテキストを生成させ、それを直接レンダリングします。しかし、アニメーション部分は私たち自身の数学アニメーションレンダリングエンジンによって生成されます。その利点は、座標軸、幾何学的図形などの内容の精度が非常に高いことであり、これが私たちの核心技術です。
現在の大言語モデルはテキストだけを出力しますが、私たちが行っているこのエージェントは、大言語モデルに紙とペンを与え、彼らが想像する適切な教育アニメーションを描くことを可能にします。描かれた部分はすべて私たちの技術です。
Founder Park:動画の最終合成、音声と映像はどのように処理されていますか?
James:最初にユーザーはプロンプトを入力します。例えば「ピタゴラスの定理とは何か?」です。最初のステップでは、大言語モデルにすべてのシーンを推論させ、通常は3〜5のシーンを規定します。これは問題の難易度によります。次に、モデルは各シーンの大まかなスクリプトを生成します。その後、各シーンのスクリプトに基づいて2回目の推論を行い、シーン内の文字、対応する図形、人声のテキストを生成します。人声のテキストはTTSで合成されます。
最後に、すべてのシーンをつなぎ合わせて、完全な動画を構成します。
Founder Park:私は理解していますが、最初のバージョンはこのようなものでした。今、随時インタラクティブなプロセスが追加された後、生成プロセスにも変化がありましたか?
James:確かに変化がありました。現在、ユーザーが最初のシーンを最初に見ることができるように、最初のシーンを生成し、ユーザーが見ることができるようにします。後のシーンはバックグラウンドで引き続きレンダリングされます。ユーザーが質問をすると、彼の声をテキストに変換し、そのテキストを以前のすべてのシーンの内容と一緒に大言語モデルに渡して、次の教育シーンを計画させます。後続のシーンのレンダリングプロセスは以前と同じです。
Founder Park:もしユーザーが1分経った時に質問があった場合、彼は直接質問します。あなたたちはその質問を受け取った後、ユーザーの質問と以前に話した内容を一緒にモデルに処理させます。このプロセスで、ユーザーが質問を終えた後、アニメーションは続けて再生されるのか、それとも停止するのか?
James:現在の遅延は最初の20〜30秒から5秒以内に圧縮されています。インタラクションでは、ユーザーがこの5秒に過度に注意を払わないようにいくつかの移行を行います。全体のプロセスのつながりは非常にスムーズです。4〜5秒以内に、彼は彼の質問に基づいて新たに提示された内容を見ることができます。
現在の段階のデザインは、AI教師が「うん、考えてみます」と言い、黒板を一掃するような形です。あなたが講義に問題があると感じたら、私はそれを消して再度書き直すというプロセスは非常に自然に感じられます。
また、私たちはユーザーの質問を待つだけでなく、途中でクイズも行います。私たちはクイズのフィードバックとユーザーの質問に基づいて推論を行います。そして、私たちは完全に自由なマイクではなく、ユーザーがマイクを自発的にオンにする必要があります。オンとオフのアクションがあります。
Founder Park:したがって、このメカニズムに基づいて、最長で約1時間の解説を生成できるということですね。
James:正確には制限はありません。もし彼がずっと質問を持っているなら、ずっと質問し続けることができます。
Kai:はい、事前の制限はありません。実際、VideoTutorがこの方向に進むのは、多モーダルAIの進歩に伴うものであり、私たちはニーズを創造しているのではなく、既存のニーズをより良く満たすために努力しています。オフラインのリアル教育を見てください。なぜアメリカの親が高額なお金を支払うことを望むのでしょうか?アメリカの教育業界は主に1対1の教育であり、1時間100ドルから始まります。オフラインの教師はガイド式の質問を行うことができ、あなたがどこでつまずいているかを観察し、次に質問を続けます。VideoTutorもこのようなリアルな教師の教育効果を実現し、すべての子供がリアルタイムでインタラクションし、リアルタイムで教育を受けることができるようにしています。
Founder Park:学生が授業中にカメラをオンにすることを要求しますか?
Kai:あまりありません。学生がカメラをオンにするかどうかは、主にアメリカのプライバシー法に依存します。製品内では強制的にオンにする機能は設計されておらず、オンにするかどうかは学生の意志に依存します。主要なインタラクションは質問と音声フィードバックを通じて行われます。
Founder Park:技術的には、小さなモデルとクラウドの大モデルを組み合わせる戦略を採用していますか?それとも他の方法ですか?
Kai:それは組み合わせの一種です。私たちの内部にはデータセットがあり、現在10万以上の動画データがあります。これらのデータの中で良いものはすべて人工的に二次ラベリングされ、微調整モデルのトレーニングに使用されます。例えば、現在8000以上のSATサンプルトレーニングデータがあります。これらの微調整された小さなモデルは、クラウドの一般商用モデル(Claude、Geminiなど)と組み合わせて使用されます。
Founder Park:Claude、Gemini、またはGPTを使用することは、製品の核心性能に影響を与えますか?
Kai:私たちは主にK12分野に関与しており、基礎モデルのレベルはすでに十分です。しかし、100%の正確性を確保するために、2つのモデルを同時に呼び出して校正します。もし2つのモデルの答えが一致すれば、基本的に間違いはありません。コード生成に関しては、主にClaudeを使用しています。彼のコード能力は非常に優れています。
Founder Park:現在、製品の技術的なボトルネックはどこにありますか?モデル能力ですか、それともコード生成ですか?
Kai:モデル能力はその一環です。さらに、レンダリングもあります。現在、5秒以内に達することができ、GPUのさらなる展開により、さらに速くなります。もう一つは長期記憶能力です。私たちは学生の長期的な学習行動データを蓄積する必要があり、この学生がどの知識点を理解していないかを知る必要があります。例えば、1ヶ月前に学んだ知識点を忘れた場合、再度思い出させることができます。
James:私たちはレンダリング時間に多くの努力を注いでおり、技術的な突破を目指しています。最初の2分から1分、そして現在は10秒以内に達しました。私たちの最終目標は、基本的に遅延のないレンダリングを実現することです。ユーザーが質問をすると、推論が終了したらすぐに結果が出るようにしたいと考えています。これは私たちのチームが現在取り組んでいる課題ですが、新しい方向性を見つけました。
完了率を見ず、最終試験の点数を見る
Founder Park:現段階で製品の核心指標をどのように測定していますか?ユーザーにとって動画が有用であるかどうかをどう判断しますか?
Kai:最も核心的な指標は試験です。新しいバージョンでは、動画を見終わると、最後にクイズがあり、正解すれば理解したことを示し、間違えれば説明が不十分であることを示します。
学習効果は完了率だけでは測れません。ある学生は半分見ただけで理解するかもしれません。彼が半分見た時にテストを行い、合格すれば残りを見る必要はありません。私たちの製品の核心指標は、どれだけの学生がここで点数を上げたかを見ることです。
Founder Park:しかし、彼の最終試験は別のシーンで行われます。あなたたちは彼が合格したかどうかの結果をどう得るのですか?
Kai:これはアメリカの製品文化に関わります。ユーザーが製品を使用した後、良い結果を得ると、自発的にシェアする傾向があります。多くの学生がVideoTutorを使用した後、SATを受けた結果を自発的にシェアしに来ます。私たちは彼らをキャンパス大使にして、二次的な広報を行います。
私たちは20人の高校生からなるキャンパス大使を持っています。実際、Mercorは初期に非常に成功し、典型的な「ユーザー成功ストーリー」モデルを使用しました。Mercorは初期に多くのインドのプログラマーにアメリカでの仕事を見つける手助けをし、彼らはこれらのユーザーに連絡を取り、ユーザーストーリーを撮影して、どのようにMercorを使って仕事を見つけたかを語ります。これが良い口コミの広がりを生み出しました。VideoTutorも同様の理由で、私たちが求めているのは、より多くの学生が製品を使用した後、非常に良い結果を得て、その経験をユーザーストーリーとしてシェアすることです。
**Founder Park:















