Internet

なぜコードテストスタートアップNova AIはOpenAIよりもオープンソースLLMをより多く使用しているのか

Sunday, September 29 2024

コードを構築する開発者がそれをテストすべきではないというのは、人間の本質的な真実です。まず第一に、ほとんどの開発者はそのタスクを非常に嫌います。第二に、良い監査のプロトコルのように、作業を行う人がそれを検証するべきではありません。

このため、ユーザビリティ、特定の言語やタスクに特化したテスト、エンドツーエンドのテストなど、あらゆる形態のコードテストは、増加傾向にある生成AIスタートアップの注目を集めています。TechCrunchは毎週、Antithesis（4700万ドル）、CodiumAI（1100万ドル）、QA Wolf（2000万ドル）など、別のスタートアップを取り上げています。そしてMomenticのような新しいスタートアップが常に新たに登場しています。

1年前に設立されたスタートアップNova AIは、Unusual Academyのアクセラレーター卒業生であり、100万ドルのプリシードラウンドを調達しています。創業者/CEOのZach Smithは、シリコンバレーのスタートアップがどのように運営すべきかというルールを破り、エンドツーエンドのテストツールで競合他社に勝とうとしています。

Nova AIのテクノロジーは、GenAIを使用して、顧客のコードをソートして、テストを自動的に構築します。特に、エンジニアが継続的にビットやピースを本番コードに出荷している継続的統合（CI）および継続的デリバリー/展開（CD）環境に対応しています。

Nova AIのアイデアは、共同創設者のジェフリー・シーと共同創設者のジェフリー・シーがビッグテック企業でエンジニアとして活動していた経験から生まれました。スミスは、以前Googleで働いており、顧客が多くの自動化技術を使用する際に助けるクラウド関連チームで働いていました。シーは以前、Metaで（その前にUnityやMicrosoftでも）合成データを扱う特異なAIの専門家として活動していました。その後、AIデータサイエンティストのHenry Liを追加しました。

Nova AIが従っていないもう一つのルール：AIのスタートアップが非常に多くOpenAIの業界をリードするGPTの上に構築している中で、Nova AIはOpenAIのChat GPT-4をできるだけ少なく使っています。顧客データはOpenAIに送信されていません。

OpenAIは、有料ビジネスプランのユーザーデータはモデルのトレーニングに使用されていないと約束していますが、企業はまだOpenAIを信頼していません。スミスによると、「大企業と話をすると、『我々はOpenAIにデータを送りたくない』と言います」と述べました。

大企業のエンジニアリングチームだけでなく、複数の訴訟を受けているOpenAIは、モデルのトレーニングに作業を使用することや、出力に許可なしで使用されたと信じられる作業をしたくない人々からの訴訟を防いでいます。

代わりに、Nova AIは、Metaが開発したLlamaやStarCoder（ServiceNowやHugging Faceによって開発されたBigCoderコミュニティ）などのオープンソースモデルに重点を置いており、独自のモデルを構築しています。彼らはまだGoogleのGemmaを顧客と一緒に使用していませんが、テストして、「良好な結果を見ています」とスミスは述べています。

たとえば、スミスは、OpenAIがベクトル埋め込みのためのモデルを提供していることを説明しています。ベクトル埋め込みは、テキストのチャンクを数字に変換し、LLMが他の似たテキストのチャンクとクラスタリングするなど、さまざまな操作を実行できるようにするものです。Nova AIはOpenAIの埋め込みを使用せず、顧客のソースコードにこのオープンソースを使用しています。OpenAIのツールは、一部のコードを生成するのに役立ち、ラベリングタスクを行うのに使用され、顧客データをOpenAIに送信しないように最大限の努力を払っています。

スミスは、「この場合、OpenAIの埋め込みモデルを使用せず、独自のオープンソース埋め込みモデルをデプロイして、ファイルをすべて実行する必要があるとき、それを単にOpenAIに送信しているだけではありません」と説明しています。

OpenAIに顧客データを送信しないことは、神経質な企業を満足させる一方で、オープンソースのAIモデルもより安価であり、特定のタスクに対して十分であることが、スミスによって見つかりました。この場合、テストの作成には非常に適しています。

「オープンLLM業界は、非常に狭い範囲でGPT 4やこれらの大手ドメインプロバイダーを打ち負かすことができることを証明しています」と彼は述べています。「私たちが提供しなければならないのは、祖母が誕生日に何を求めているかをお教えする巨大なモデルではありません。私たちはテストを書く必要があります。それだけです。ですから、私たちのモデルはそれに特化して調整されています。」

オープンソースのモデルは急速に進化しています。たとえば、Metaは最近、技術界で称賛されているLlamaの新しいバージョンを導入し、さらに多くのAIスタートアップがOpenAIの代替案を検討する可能性があります。