444aaa_五月天影院,久久综合,_亚洲成人999_午夜伦理电影在线观看_天天干干天天_chinese xvideos gay

Gemini 1.5 實驗版 (Pro, Flash, 8B):新款 Gemini 擊敗 Claude? 且價格低廉(全面測試)

谷歌今天在其網站上發布了一些新的實驗模型,我們將對它們進行嘗試,

有一個新的 Gemini 1.5 Pro 實驗模型,據說它是?Gemini 的更好版本,改進了編碼和復雜參數的訓練,

它是在他們幾天前發布的前一個實驗版本上進行的訓練,此外他們還添加了一個新的實驗?Gemini 1.5 Flash模型,

最后他們還有一個非常小的實驗性 Gemini 1.5 Flash,只有 80 億個參數,所以總的來說有三個新模型:

Gemini 1.5 實驗版 (Pro, Flash, 8B):新款 Gemini 擊敗 Claude? 且價格低廉(全面測試)插圖

如果我們看看 LMMS Arena 得分,就知道Gemini flash 已經有了巨大的飛躍,從第?23 位攀升至第 6 位,這真的很酷,甚至排名高于 Claude 3.5 Sonet,但我不認為它會像 Sonet 一樣好。

Gemini 1.5 實驗版 (Pro, Flash, 8B):新款 Gemini 擊敗 Claude? 且價格低廉(全面測試)插圖1

除了 Gemini 1.5 Pro 在編碼和數學方面比以前的版本有顯著的進步,在排行榜上排名第二之外,較小的 Gemini 1.5 flash 8B 優于 Gemini 29b,與 llama 3 70 B 水平相當,這也非??帷?/strong>

您還可以在編碼基準中看到 LMMS 在這里分享的編碼基準,正如您所見,它們看起來也相當不錯,

Gemini 1.5 實驗版 (Pro, Flash, 8B):新款 Gemini 擊敗 Claude? 且價格低廉(全面測試)插圖2

這些新模型可以在?Google 的 AI 工作室免費試用(https://aistudio.google.com/),所以讓我們嘗試一下,看看是否它們確實像宣傳的那樣有效。

我將針對這 13 個問題測試這三種型號?所以讓我們開始吧

第一個問題是哪個國家的首都以 Leah 結尾, 我指的是國家名稱 ,答案應該是堪培拉或任何與 Leah 押韻的國家首都。左邊的是 pro ,中間的是 Flash ,右邊是較小的 flash 8B 。

這是答案:pro 型號正確回答了這個問題, 而另一個 flash 和 flash 8B模型不會。

Gemini 1.5 實驗版 (Pro, Flash, 8B):新款 Gemini 擊敗 Claude? 且價格低廉(全面測試)插圖3

下一個問題是,與我們用來描述高大植物的單詞押韻的數字是什么,答案應該是三,讓我們發送它并檢查這是答案,所有模型在這個問題上都是正確的,所以讓我們給它們一個通過,

Gemini 1.5 實驗版 (Pro, Flash, 8B):新款 Gemini 擊敗 Claude? 且價格低廉(全面測試)插圖4

下一個問題是約翰約翰有三盒鉛筆,每盒有 12 支鉛筆,約翰總共有多少支鉛筆,答案應該是 36,讓我們發送它并查看這是答案,所有三個模型都給出了正確答案,所以讓我們給他們所有人一個通過現在

Gemini 1.5 實驗版 (Pro, Flash, 8B):新款 Gemini 擊敗 Claude? 且價格低廉(全面測試)插圖5

下一個問題是露西的糖果數量是邁克的兩倍如果邁克有七顆糖果露西有多少顆糖果答案應該是14,讓我們發送并檢查這是答案并且它們都是正確的所以這三個也是通過的。

Gemini 1.5 實驗版 (Pro, Flash, 8B):新款 Gemini 擊敗 Claude? 且價格低廉(全面測試)插圖6

下一個問題是3307是質數嗎?答案應該是肯定的。

專業版和Flash型號沒有正確回答這個問題,而Flash 8B型號回答正確,所以這個通過 。更大的模型則不行,這真的很有趣。

Gemini 1.5 實驗版 (Pro, Flash, 8B):新款 Gemini 擊敗 Claude? 且價格低廉(全面測試)插圖7

下一個問題是,我有兩個蘋果,然后我又買了兩個,我用兩個蘋果烤了一個餡餅,吃了一半餡餅之后,我還剩下多少個蘋果,答案應該是兩個,讓我們把它發送出去,這里是答案,所有的模型都回答正確,所以他們都可以通過了,

Gemini 1.5 實驗版 (Pro, Flash, 8B):新款 Gemini 擊敗 Claude? 且價格低廉(全面測試)插圖8

下一個問題是莎莉是個女孩,她有三個兄弟,她的每個兄弟都有相同的兩個姐妹,莎莉有多少個姐妹,答案應該是一個,讓我們把它發送出去

這是答案,而且它們全都正確,所以現在讓我們標記一下,

Gemini 1.5 實驗版 (Pro, Flash, 8B):新款 Gemini 擊敗 Claude? 且價格低廉(全面測試)插圖9

下一個問題是,如果一個正六邊形的短對角線是 64,那么它的長對角線是多少,答案應該是 73.9,讓我們發送它并檢查結果,這是答案,他們全都回答錯誤,所以這道題全部不及格,

Gemini 1.5 實驗版 (Pro, Flash, 8B):新款 Gemini 擊敗 Claude? 且價格低廉(全面測試)插圖10

接下來的問題是編碼問題,第一個問題是創建一個 HTML 頁面,其中有一個按鈕,當你單擊它時會爆炸五彩紙屑,你也可以使用 CSS 和 JS。

我們先預覽一下專業版,看起來還不錯,所以這個通過了,現在我們來預覽一下 Flash 版本,好吧,它根本不起作用,所以這個失敗了,現在我們來看看 8B 版本,它也運行得不好,所以這個也失敗了,

Gemini 1.5 實驗版 (Pro, Flash, 8B):新款 Gemini 擊敗 Claude? 且價格低廉(全面測試)插圖11

現在下一個問題是生成蝴蝶的 SVG 代碼,讓我們看看他們是否可以做到這一點,

讓我們逐一預覽一下,這個來自 Flash 8B,看起來不像蝴蝶,所以這個失敗了,這是 Flash 的預覽,看起來有點像蝴蝶,所以這個通過了,下一個這里有一個來自 Pro 的,看起來很不錯,所以這個通過了,

Gemini 1.5 實驗版 (Pro, Flash, 8B):新款 Gemini 擊敗 Claude? 且價格低廉(全面測試)插圖12

下一個問題是為一家 AI 公司創建一個登陸頁面,登陸頁面應該有四個部分,標題橫幅功能,并聯系我們,確保登陸頁面看起來時尚而現代,您可以使用?HTML CSS 和 JS,

讓我們先預覽專業模型生成,所以它看起來真的很好,所以這個通過了,這是來自 Flash 的預覽,看起來也很不錯,所以這個通過了,?這是 flash 8B 的預覽,看起來也很不錯,所以這個也通過了。

Gemini 1.5 實驗版 (Pro, Flash, 8B):新款 Gemini 擊敗 Claude? 且價格低廉(全面測試)插圖13

下一個問題是用 Python 編寫一個可以在終端中運行的生命游戲,讓我們發送它并檢查答案。

看看這是專業模型的生成,它運行得很好,現在讓我們看看 flash 模型的生成,它不能正常工作,所以這個失敗了,現在讓我們看看 8B 模型的生成,這個看起來也很不錯。

Gemini 1.5 實驗版 (Pro, Flash, 8B):新款 Gemini 擊敗 Claude? 且價格低廉(全面測試)插圖14

所以現在讓我們標記一下,這是最終的圖表,

Gemini 1.5 實驗版 (Pro, Flash, 8B):新款 Gemini 擊敗 Claude? 且價格低廉(全面測試)插圖15

你可以看到Pro模型看起來很不錯,而Flash?模型也有了很好的升級,而Flash 8 B 也與?Flash?模型相當,我認為 8B 模型是 AE 或專家模型的混合,具有 8B 的活動參數,這很好,而且效果很好。

我很想看看它比已經便宜很多的Flash模型便宜多少,我認為所有這些模型都很酷,總的來說它們很好。

??希望這篇文章對你有幫助,感謝閱讀!如果你喜歡這系列文章請以?點贊 / 分享 / 在看?的方式告訴我,以便我用來評估創作方向。

THE END
主站蜘蛛池模板: 午夜伦理影院 | 青青久久久国产线免观 | 日本精品久久久久护士 | 欧美日韩一区二区在线观看视频 | 毛片短视频 | 八武将免费完整版在线观看 | www.avbobo| 天天看天天爽天天摸天天添 | 中国精品久久 | 黄色一级视频 | 高清一区高清二区视频 | caoporn视频 | 亚洲专区区免费 | 亚洲成人免费网址 | 天天操天天射天天插 | 色综合久久久久综合99 | 国产精品久久久久久久久免费 | 久久综合玖玖爱中文字幕 | 日本精品在线观看 | 成人超碰| 一级毛片成人午夜 | 亚洲国产成人精品女人久久久 | 天天鲁天天爽天天视频 | 黄色网址你懂的 | 成在线人免费视频一区二区三区 | 奇米影视77 | 亚洲精品福利一区二区三区 | 麻豆国产 | 亚欧在线一线 | 成人欧美一区二区三区在线播放 | 欧美成人精品不卡视频在线观看 | 国产亚洲精品久久久久久小说 | 午夜福利国产在线观看1 | 观看av| 九九久久亚洲综合久久久 | 亚洲一区二区欧美日韩 | 国产电影一区二区三区 | 精品视频网 | 香蕉一区二区 | 久久亚洲国产精品 | 日本黄色网址大全 |