OpenAI o1、SPI型テストで正答率95.6%、時給換算1,066円
株式会社エル・ティー・エス(本社:東京都港区、代表取締役社長:樺島 弘明/以下、LTS)の関連会社である株式会社ビジー・ビー(本社:東京都港区、代表取締役社長:牟田口陽介)は、独自開発したExcel用アドイン『生成AIツール for Excel』の2024年12月版をマイクロソフトのOfficeストア[1]で12月18日にリリースしました。
■主要3社20モデルに対応した世界唯一のExcelアドイン
『生成AIツール for Excel』は、Windows/MacOS/Web版のExcelで利用可能な無償[2]アドインです。2024年12月版では生成AIの主要3社20モデル(GPT-4o、Gemini Pro 1.5、Claude 3.5 Sonnet等)に対応する世界で唯一[3]のExcelアドインになりました。
SPI型テストの分野別正答数
AIの性能評価指標にはGSM-Symbolic等がありますが、業務適性まではわかりません。そこで当社は、表形式でデータを扱える自社アドインの特性を活かし、各社のモデルの業務適性を採用試験等で使われるSPI型テスト[4]で比較しました。その結果、OpenAIのAIモデルo1の正答率は95%を超え「最も優秀な就活生と同等以上の能力」があるとわかりました。
■OpenAI o1は全分野の正答率が80%以上
今回の比較により、これまで生成AIが不得意だった文章整序(言語)、特殊計算(非言語)の正答率がOpenAI o1で初めて80%に達しました。正答数では、OpenAIのo1-previewが295問中282問正解(正答率95.6%)で、2位のアンソロピックのClaude 3.5 Sonnetの175問正解(同59.3%)に大差をつけました。
標準4モデルの分野別正答数
軽量モデルの比較でも、o1-miniの性能が際立ちます。正答数は254点(同86.1%)で、従来のどの標準モデルよりも高性能でした。なお、グーグルが12月11日に発表した最新のGemini 2.0 Flashの正答数は184点(同62.4%)で、Gemini 1.5 Proの194点(同65.8%)に匹敵するほど向上しました。
軽量5モデルの分野別正答数
■調査で用いたプロンプトの例
今回の調査では、以下の形式のプロンプトをExcelからAPI経由で送信し、得られた回答の一部を加工して正誤を判定、集計しました。
性能評価の詳細、対応モデルなどについては、ビジー・ビーのリリースページ(https://busybee.co.jp/?p=2688)をご覧ください。
[1] https://appsource.microsoft.com/ja-jp/product/office/wa200006231
[2] ご利用にはOpenAI及びグーグル、アンソロピックのユーザーアカウントでAPIキー(秘密鍵)を取得する必要があります。APIの利用には別途費用が発生します。
[3] 2024年12月16日、マイクロソフトのOfficeストアで提供されているアドインの範囲で調査
[4] SPI(Synthetic Personality Inventory)は株式会社リクルートマネジメントソリューションズが開発した就活等の適性検査手法。今回の調査では図表の読み取り問題を含まない3分野295問を当社で用意し、各社のAPIに送信、回答を一部加工して集計しました。本調査とリクルートマネジメントソリューションズは関係ありません。
【株式会社エル・ティー・エスについて】
東京証券取引所 プライム市場(証券コード:6560)URL :https://lt-s.jp/
株式会社エル・ティー・エスは、デジタル時代のベストパートナーを目指し、お客様の変革実行能力を高めるためのコンサルティングを主軸としたプロフェッショナルサービスと、IT業界の企業や人材をつなぎ新しいビジネス機会を創出するプラットフォーム事業を運営しています。
【本プレスリリースに関するお問い合わせ先】
株式会社ビジー・ビー : https://busybee.co.jp/
TEL:03-3470-3171 Email:info@busybee.co.jp
株式会社エル・ティー・エス(本社:東京都港区、代表取締役社長:樺島 弘明/以下、LTS)の関連会社である株式会社ビジー・ビー(本社:東京都港区、代表取締役社長:牟田口陽介)は、独自開発したExcel用アドイン『生成AIツール for Excel』の2024年12月版をマイクロソフトのOfficeストア[1]で12月18日にリリースしました。
■主要3社20モデルに対応した世界唯一のExcelアドイン
『生成AIツール for Excel』は、Windows/MacOS/Web版のExcelで利用可能な無償[2]アドインです。2024年12月版では生成AIの主要3社20モデル(GPT-4o、Gemini Pro 1.5、Claude 3.5 Sonnet等)に対応する世界で唯一[3]のExcelアドインになりました。
SPI型テストの分野別正答数
AIの性能評価指標にはGSM-Symbolic等がありますが、業務適性まではわかりません。そこで当社は、表形式でデータを扱える自社アドインの特性を活かし、各社のモデルの業務適性を採用試験等で使われるSPI型テスト[4]で比較しました。その結果、OpenAIのAIモデルo1の正答率は95%を超え「最も優秀な就活生と同等以上の能力」があるとわかりました。
■OpenAI o1は全分野の正答率が80%以上
今回の比較により、これまで生成AIが不得意だった文章整序(言語)、特殊計算(非言語)の正答率がOpenAI o1で初めて80%に達しました。正答数では、OpenAIのo1-previewが295問中282問正解(正答率95.6%)で、2位のアンソロピックのClaude 3.5 Sonnetの175問正解(同59.3%)に大差をつけました。
標準4モデルの分野別正答数
軽量モデルの比較でも、o1-miniの性能が際立ちます。正答数は254点(同86.1%)で、従来のどの標準モデルよりも高性能でした。なお、グーグルが12月11日に発表した最新のGemini 2.0 Flashの正答数は184点(同62.4%)で、Gemini 1.5 Proの194点(同65.8%)に匹敵するほど向上しました。
軽量5モデルの分野別正答数
■調査で用いたプロンプトの例
今回の調査では、以下の形式のプロンプトをExcelからAPI経由で送信し、得られた回答の一部を加工して正誤を判定、集計しました。
性能評価の詳細、対応モデルなどについては、ビジー・ビーのリリースページ(https://busybee.co.jp/?p=2688)をご覧ください。
[1] https://appsource.microsoft.com/ja-jp/product/office/wa200006231
[2] ご利用にはOpenAI及びグーグル、アンソロピックのユーザーアカウントでAPIキー(秘密鍵)を取得する必要があります。APIの利用には別途費用が発生します。
[3] 2024年12月16日、マイクロソフトのOfficeストアで提供されているアドインの範囲で調査
[4] SPI(Synthetic Personality Inventory)は株式会社リクルートマネジメントソリューションズが開発した就活等の適性検査手法。今回の調査では図表の読み取り問題を含まない3分野295問を当社で用意し、各社のAPIに送信、回答を一部加工して集計しました。本調査とリクルートマネジメントソリューションズは関係ありません。
【株式会社エル・ティー・エスについて】
東京証券取引所 プライム市場(証券コード:6560)URL :https://lt-s.jp/
株式会社エル・ティー・エスは、デジタル時代のベストパートナーを目指し、お客様の変革実行能力を高めるためのコンサルティングを主軸としたプロフェッショナルサービスと、IT業界の企業や人材をつなぎ新しいビジネス機会を創出するプラットフォーム事業を運営しています。
【本プレスリリースに関するお問い合わせ先】
株式会社ビジー・ビー : https://busybee.co.jp/
TEL:03-3470-3171 Email:info@busybee.co.jp
関連銘柄
銘柄 | 株価 | 前日比 |
---|---|---|
6560
|
2,322.0
(15:30)
|
-61.0
(-2.55%)
|
関連銘柄の最新ニュース
-
12/17 10:43
-
12/16 16:19
-
12/13 17:00
-
12/10 14:00
-
12/02 18:00
新着ニュース
新着ニュース一覧みんかぶおすすめ
\ 投資・お金について学ぶ入門サイト /