Gemini 1.5 實驗版 (Pro, Flash, 8B):新款 Gemini 擊敗 Claude? 且價格低廉(全面測試)
谷歌今天在其網站上發布了一些新的實驗模型,我們將對它們進行嘗試,
有一個新的 Gemini 1.5 Pro 實驗模型,據說它是?Gemini 的更好版本,改進了編碼和復雜參數的訓練,
它是在他們幾天前發布的前一個實驗版本上進行的訓練,此外他們還添加了一個新的實驗?Gemini 1.5 Flash模型,
最后他們還有一個非常小的實驗性 Gemini 1.5 Flash,只有 80 億個參數,所以總的來說有三個新模型:
如果我們看看 LMMS Arena 得分,就知道Gemini flash 已經有了巨大的飛躍,從第?23 位攀升至第 6 位,這真的很酷,甚至排名高于 Claude 3.5 Sonet,但我不認為它會像 Sonet 一樣好。
除了 Gemini 1.5 Pro 在編碼和數學方面比以前的版本有顯著的進步,在排行榜上排名第二之外,較小的 Gemini 1.5 flash 8B 優于 Gemini 29b,與 llama 3 70 B 水平相當,這也非常酷。
您還可以在編碼基準中看到 LMMS 在這里分享的編碼基準,正如您所見,它們看起來也相當不錯,
這些新模型可以在?Google 的 AI 工作室免費試用(https://aistudio.google.com/),所以讓我們嘗試一下,看看是否它們確實像宣傳的那樣有效。
我將針對這 13 個問題測試這三種型號?所以讓我們開始吧
第一個問題是哪個國家的首都以 Leah 結尾, 我指的是國家名稱 ,答案應該是堪培拉或任何與 Leah 押韻的國家首都。左邊的是 pro ,中間的是 Flash ,右邊是較小的 flash 8B 。
這是答案:pro 型號正確回答了這個問題, 而另一個 flash 和 flash 8B模型不會。
下一個問題是,與我們用來描述高大植物的單詞押韻的數字是什么,答案應該是三,讓我們發送它并檢查這是答案,所有模型在這個問題上都是正確的,所以讓我們給它們一個通過,
下一個問題是約翰約翰有三盒鉛筆,每盒有 12 支鉛筆,約翰總共有多少支鉛筆,答案應該是 36,讓我們發送它并查看這是答案,所有三個模型都給出了正確答案,所以讓我們給他們所有人一個通過現在
下一個問題是露西的糖果數量是邁克的兩倍如果邁克有七顆糖果露西有多少顆糖果答案應該是14,讓我們發送并檢查這是答案并且它們都是正確的所以這三個也是通過的。
下一個問題是3307是質數嗎?答案應該是肯定的。
專業版和Flash型號沒有正確回答這個問題,而Flash 8B型號回答正確,所以這個通過 。更大的模型則不行,這真的很有趣。
下一個問題是,我有兩個蘋果,然后我又買了兩個,我用兩個蘋果烤了一個餡餅,吃了一半餡餅之后,我還剩下多少個蘋果,答案應該是兩個,讓我們把它發送出去,這里是答案,所有的模型都回答正確,所以他們都可以通過了,
下一個問題是莎莉是個女孩,她有三個兄弟,她的每個兄弟都有相同的兩個姐妹,莎莉有多少個姐妹,答案應該是一個,讓我們把它發送出去
這是答案,而且它們全都正確,所以現在讓我們標記一下,
下一個問題是,如果一個正六邊形的短對角線是 64,那么它的長對角線是多少,答案應該是 73.9,讓我們發送它并檢查結果,這是答案,他們全都回答錯誤,所以這道題全部不及格,
接下來的問題是編碼問題,第一個問題是創建一個 HTML 頁面,其中有一個按鈕,當你單擊它時會爆炸五彩紙屑,你也可以使用 CSS 和 JS。
我們先預覽一下專業版,看起來還不錯,所以這個通過了,現在我們來預覽一下 Flash 版本,好吧,它根本不起作用,所以這個失敗了,現在我們來看看 8B 版本,它也運行得不好,所以這個也失敗了,
現在下一個問題是生成蝴蝶的 SVG 代碼,讓我們看看他們是否可以做到這一點,
讓我們逐一預覽一下,這個來自 Flash 8B,看起來不像蝴蝶,所以這個失敗了,這是 Flash 的預覽,看起來有點像蝴蝶,所以這個通過了,下一個這里有一個來自 Pro 的,看起來很不錯,所以這個通過了,
下一個問題是為一家 AI 公司創建一個登陸頁面,登陸頁面應該有四個部分,標題橫幅功能,并聯系我們,確保登陸頁面看起來時尚而現代,您可以使用?HTML CSS 和 JS,
讓我們先預覽專業模型生成,所以它看起來真的很好,所以這個通過了,這是來自 Flash 的預覽,看起來也很不錯,所以這個通過了,?這是 flash 8B 的預覽,看起來也很不錯,所以這個也通過了。
下一個問題是用 Python 編寫一個可以在終端中運行的生命游戲,讓我們發送它并檢查答案。
看看這是專業模型的生成,它運行得很好,現在讓我們看看 flash 模型的生成,它不能正常工作,所以這個失敗了,現在讓我們看看 8B 模型的生成,這個看起來也很不錯。
所以現在讓我們標記一下,這是最終的圖表,
你可以看到Pro模型看起來很不錯,而Flash?模型也有了很好的升級,而Flash 8 B 也與?Flash?模型相當,我認為 8B 模型是 AE 或專家模型的混合,具有 8B 的活動參數,這很好,而且效果很好。
我很想看看它比已經便宜很多的Flash模型便宜多少,我認為所有這些模型都很酷,總的來說它們很好。
??希望這篇文章對你有幫助,感謝閱讀!如果你喜歡這系列文章請以?點贊 / 分享 / 在看?的方式告訴我,以便我用來評估創作方向。
作者:小藍
鏈接:http://www.tymcc.com.cn/content/1247.html
本站部分內容和圖片來源網絡,不代表本站觀點,如有侵權,可聯系我方刪除。