您的當前位置：首頁 > 資訊 > 創新科技 > 文心一言與GPT-4差距在哪？實測一下見分曉

文心一言與GPT-4差距在哪？實測一下見分曉

時間： 2023-03-18 10:32 創新科技

周四“中國版GPT”文心一言也迎來了備受關注的高光時刻。當天下午2點，百度創始人李彥宏出現在發布會現場，展示了文心一言的使用場景表現。

據悉，3月16日起，首批用戶可通過邀請碼在文心一言官網體驗產品，后續將陸續開放給更多用戶。

值得關注的是，昨天發布會開始后，百度集團港股股價出現持續下挫，最高跌幅一度達到9%，最終收盤時的跌幅達6%。然而情況在今天卻發生了逆轉，截至發稿前，百度港股股價持續上漲逾14%。

無獨有偶，在文心一言正式上線的前一天，OpenAI正式官宣了大模型GPT-4，距離上次驚艷出圈的ChatGPT推出僅過去4個月。最新官宣的GPT-4不僅提升語言模型方面的能力，并添加了“多模態”的圖片識別功能。簡單來說，GPT-4更聰明，也更像人了。

對于文心一言與GPT-4而言，幾乎同時期的上線節奏，意味著兩者之間的比較不可避免。第一時間獲得內測資格后，新榜編輯部分別向文心一言和搭載GPT-4版本的微軟Bing提出了9個相同的問題，看看它們是如何回應的。（想知道問題和答案的朋友可直接跳轉第三部分）

P.S 自3月16日起，個人用戶可以通過訪問yiyan.baidu.com，點擊“立即體驗”參與排隊。

文心一言:是不及預期，還是值得期待?

“十月懷胎，一朝分娩。”

正式發布文心一言之前，李彥宏用這樣一句話概括百度多年來在文心AI系列產品上的布局。2019年3月，百度推出文心ERNIE1.0以來，期間經歷了多次迭代，此次發布的文心一言是在過往產品上的延續與升級。

李彥宏還表示，對文心一言，大家的期望值是要對標ChatGPT，甚至要對標GPT4，這個門檻還是很高的。全球的大廠當中，百度是第一個發布的。（ChatGPT由OpenAI開發，不隸屬于微軟，雙方為合作伙伴關系）

在產品演示環節，李彥宏分別演示了文心一言在文學創作、商業文案創作、數理推算、中文理解和多模態生成五種使用場景中的表現，比如總結小說《三體》的核心內容，給公司起名、寫標語，計算雞兔同籠數學問題，以及根據文本自動生成圖片、視頻等。

值得注意的是，以上演示環節都是提前錄制好的視頻DEMO，現場并沒有演示向文心一言實時提問的效果，這讓不少用戶感到失望，認為產品沒有達到預想中的驚艷效果，間接影響到百度在資本市場的走勢，導致其港股股價在發布會期間直接跳水。

不及預期的演示效果，與百度對文心一言的高調宣發，和產品的匆忙上線節奏都存在一定聯系。

今年初ChatGPT出圈后不久，百度便宣布正在籌備類似AI產品文心一言，預計3月份面向公眾開放。2月底發布2022年Q4及全年財報后，李彥宏在全員信中提到，“百度的多項主流業務與文心一言整合，包括搜索、智能云、Apollo自動駕駛、小度智能設備等”。

與此同時，文心一言仍然處于緊鑼密鼓的測試開放過程中。據《華爾街日報》報道，文心一言上線一周前，有百度員工表示產品的基本功能尚未完善，所基于的AI模型仍在接受數據訓練。

或許是種種因素疊加，李彥宏在發布會一開始就表示，內測期的文心一言并不完美，但考慮市場有需求，所以必須要推出來，并強調用戶的使用反饋能夠幫助文心一言不斷優化迭代。

發布會現場，李彥宏宣布已有650家機構宣布加入文心一言生態，李彥宏也表示看好未來AI市場的爆發性需求。百度官方數據顯示，截至3月17日10點，申請文心一言API調用服務測試的企業已達7.6萬家。

“百度敢于在當下這個時點發布自己的大模型，還是有很大的勇氣，行業關注度很高，客觀上能夠促進國內AIGC上下游的發展。”一幀視頻CEO雷濤告訴我們，其旗下產品“一幀秒創”也支持文字轉視頻，所以比較關注文心一言的多模態輸出能力，但發布會演示的效果不及預期。

他認為，對中國的互聯網創業者來說，現在到了一個“AI平權”的階段——今天任何一個人工智能創業公司與百度的差距，都遠小于百度與OpenAI的差距，所以小公司也有機會在中文互聯網開展與行業巨頭的競爭。而基于現有模型成果的應用開發，小公司也有了更多嘗試的機會。AIGC的黃金十年可能已經開啟了。

GPT-4升級多模態，國內如何接招?

回顧文心一言的誕生，除了百度本身十余年的技術積累之外，ChatGPT才是引爆這場AI科技大戰的關鍵點。

今年2月初，微軟推出了新的人工智能搜索引擎Bing和Edge瀏覽器，谷歌發布了實驗性的對話AI服務Bard，而“中國版ChatGPT”在哪里?不少目光投向了百度等國內大廠，很快百度就官宣了文心一言。

巧合的是，在文心一言發布前一天，3月15日凌晨，OpenAI推出了多模態大模型GPT-4，這次里程碑式的升級讓人感嘆“這下壓力給到了百度”。

GPT-4主要有以下幾點更新:

1.新增視覺輸入

GPT-4支持以圖像作為輸入并生成對應的文字說明、分類和分析，圖像支持包括帶有文字和照片的文件、圖表或屏幕截圖。

在樣本演示中，可以看到GPT-4不僅能處理圖表、回答考試題、總結論文概要，還能解釋梗圖。比如GPT-4看出了這張圖的特別之處在于，一名男子掛在車上熨衣服的極限操作。

對于地圖和雞塊的組合，GPT-4也能指出梗的幽默之處。

在GPT-4發布會上，輸入一張網站設計草圖，它甚至當場只花了十幾秒時間就生成了一個完整的前端HTML代碼并制作出網站。

不過目前圖像輸入仍屬于研究方面預覽，沒有對C端用戶開放。

2.更長的上下文

GPT-4能夠處理超過25000個單詞的文本，允許使用長格式內容創建、擴展對話以及文檔搜索和分析等。這意味著用戶不用像之前那樣分成幾段文字來提問，處理長文本更方便了。

比如輸入一個蕾哈娜的百科網址，GPT-4可以讀取其中的內容并根據要求整合信息，回答出她在超級碗上的表現如何。

3.可控性（角色扮演）

目前開發者（很快所有ChatGPT用戶）可以通過在“系統”消息中輸入描述來規定AI的風格和任務。也就是說，AI可以按照用戶的要求進行角色扮演，以特定人物的語氣風格進行對話，比如示例中的蘇格拉底導師、莎士比亞的海盜。

此外，相比上一代的GPT-3.5，GPT-4的回答深度和專業性、解決難題的能力等也顯著提高。

據官方介紹，在隨意的談話中，GPT-3.5和GPT-4之間的區別可能很微妙。但當任務的復雜性達到足夠的閾值時，差異就會出現——GPT-4比GPT-3.5更可靠、更有創意，并且能夠處理更細微的指令。GPT-4可以做到用A~Z開頭且不重復的單詞講述灰姑娘的故事

實驗表明，GPT-4在各種專業測試和學術基準上的表現與人類水平相當。例如，它通過模擬律師考試，分數在應試者的前10%左右;相比之下，GPT-3.5的得分在倒數10%左右。

在安全問題上，OpenAI花了6個月的時間使GPT-4更安全、更一致，據內部評估，與GPT-3.5相比，GPT-4響應違規內容請求的可能性降低82%，產生事實響應的可能性高40%。但OpenAI承認，GPT-4仍然不完全可靠，例如會生成有害建議、錯誤代碼或不準確信息，我們在使用時需要謹慎辨別。

除了模型的提升，目前OpenAI已經與多家公司合作將GPT-4搭載到他們的產品中，官網列出的案例涵蓋語言學習、金融、咨詢、教育、生活助手、語言保護等領域。

“GPT-4改變了游戲規則，它開辟了很多領域。”移動支付公司Stripe應用機器學習團隊的產品負責人Eugene Mann說道。

GPT-4的發布正推動著創業者和互聯網大廠紛紛跟進，國內在模型層可能暫時難以趕上，而在機會更多的應用層，目前國內的AI創業競賽似乎才剛剛開始。李彥宏表示最大的機會在于應用開發

據科創板日報，綜合多個第三方機構的統計，目前，國內AIGC領域的項目數量在30個以內，主要集中在聊天咨詢、文案策劃、圖像創作、音樂生成、視頻制作以及游戲等應用領域。

AI創業者王凱認為，在ChatGPT3.5出來之前，國內應用層多數是to b的場景，打個比方來說，之前是自行車比賽，ChatGPT3.5出來后變成汽車比賽了。現在國內AI應用層還沒到爆發期，個人或者初創公司的機會就是找個垂直場景、垂直行業把AI當作生意模式的一環去做。

文心一言 VS Bing（搭載GPT-4）

國內的大模型與國外有多大差距?長期關注AI的即刻用戶“哥飛”稱，GPT-4很強，文心一言的水平估計在GPT2.5左右。

最后，新榜編輯部分別向文心一言與使用GPT-4技術的Bing提出了9個不同的問題，涵蓋生活問題、數學推理、文案創作等類型，看看誰“更像人”。

Q1:什么工作錢多事少離家近?

文心一言:快遞員、外賣騎手、鐘點工、賣早點小吃。

Bing:互聯網、金融、咨詢、自由職業者。

Q2:

1、籠子里有30只雞和兔子，一共84條腿，有幾只雞幾只兔子

2、籠子里有30只雞和兔子，一共54條腿，有幾只雞幾只兔子（題目出錯了，無解）

3、籠子里有10只鴨子和小狗，鴨子2條腿，小狗4條腿，一共24條腿，有幾只鴨子幾只小狗

文心一言:都答錯了。

Bing:第一題對了，第二題錯了，第三題計算過程正確，但沒顯示答案。

*滑動查看所有回答*

Q3:幫我寫一篇sk2大紅瓶面霜的小紅書種草筆記。小紅書種草筆記的風格是，每行文字不超過20個字并且都以emoji表情符號開頭，文風浮夸高調

文心一言:指導你寫，自己不寫，并且顯示不出emoji表情包。

Bing:像模像樣，很有禮貌。

Q4:用一個圖片表情包形容你跟我聊天的心情

文心一言:《強顏歡笑》

Bing:不能畫圖，但跟你聊天真開心。

Q5:重寫宋慧喬主演的《黑暗榮耀》這部韓劇的結尾:

文心一言:雖然我沒看過，但我能給你套上一個萬能結尾。

Bing:有些狗血的BE，但起碼我看過。

Q6:用文言文總結這個故事:

有一天，在森林里兔子和烏龜比賽跑步，兔子嘲笑烏龜爬得慢，烏龜說:“總有一天我會贏的。”兔子就輕蔑地說:“那我們現在就開始比賽!”烏龜答應了，兔子大聲喊道:“比賽開始!”兔子飛快地跑著，烏龜拼命地爬著。不一會兒，兔子與烏龜已經離的有很大一段距離了。兔子認為比賽太輕松了，它要先睡一會，并且自以為是地說即使自己睡醒了烏龜也不一定能追上它。而烏龜呢，它一刻不停地爬行，爬呀爬呀，到兔子那里的時候，它已經累得不行了，但烏龜想如果這時和兔子一樣去休息，那比賽就不會贏了，所以烏龜繼續地爬呀爬呀。當兔子醒來的時候烏龜已經到達終點了。

文心一言:總結了，但不是文言文。

Bing:是文言文，但沒總結，追問之后可以。

Q7:模仿李白的《將進酒》寫一首詩，主題是肯德基瘋狂星期四

文心一言:現代詩，肯德基滿意地V我50。

Bing:人生在世須嘗鮮，莫使美味空過眼。

Q8:以表格形式列出百度2022年各個季度的營收額

文心一言:神奇的7季度出現了，是李彥宏看到也會無語的程度。

Bing:比文心一言靠譜，但不多（部分日期和數字對不上）。

Q9:你現在是一個懸疑小說的編劇，設計一個密室謀殺案件，說明具體手法

文心一言:好像學會了，又好像沒學會。

Bing:生成答案后立馬刪除（差點忘了這是不能說的）。

以上是我們向文心一言和Bing提出的問題，考慮到文心一言目前尚在小范圍內測，如果你有想問的問題，歡迎留言，我們幫你問。