如何看待斯坦福 SQuAD 挑戰賽以及參賽團隊表示 計算機文字理解能力首次超越人類 ?

時間 2021-05-05 19:17:28

1樓:

一年後再來看這個問題,感慨萬千,優秀的資料集促進技術發展,無論是imagenet還是squad。不能說Elmo 和bert這兩個模型沒有squad就做不出來,但是squad絕對起了很大的推動作用。

MT和MRC,nlp生成和理解的兩個良定義任務,推動著nlp滾滾向前。

2樓:天方燕談-李燕

以防有知友不了解,我還是先做個背景介紹:在機器閱讀理解方面,資料集獲取本身是個技術難點,早期的閱讀理解資料集如MCTest、Algebra、Science等都有著資料量小、難度較大等缺點。2023年,史丹福大學通過亞馬遜眾包平台(AMT)建立了乙個新的閱讀理解資料集—SQuAD,也就是問題中涉及的科技比賽。

這個資料集包含了100k的問題答案對,玩法設定上是問題和答案只與維基百科中文章的某一段落有關,答案的形式也是該段落的某一片段。總而言之,新型閱讀理解資料集SQuAD的出現,大大降低了人們獲取資料的時間成本。

目前SQuAD是業內公認的機器閱讀理解標準水平權威測試,幾乎所有擁有搜尋業務的公司都對此趨之若鶩,通過國際頂級賽事SQuAD來驗證自身的科技實力。2023年6月3日,斯坦福NLP團隊在原機器閱讀理解資料集1.1的基礎上完成一波更新,進入到SQuAD 2.

0版本。相較於SQuAD 1.1中的10萬問答,SQuAD 2.

0又新增了5萬個人類眾包者對抗性地設計的問題,而且問題不一定有對應答案。。。

換句話說,執行 SQuAD 2.0 閱讀理解任務的模型,不僅要能夠在問題可回答時給出答案,還要判斷哪些問題是閱讀文字中沒有材料支援的,並拒絕回答這些問題。這對機器閱讀理解的要求,SQuAD 2.

0比1.0的難度應該說高出許多,不過這也是為何科技巨頭爭相比拼的原因: 專業性強、含金量高。

榜單更新有多快,就好比每季服裝潮流的變換速度一般。2023年11月,冠軍還屬於哈工大訊飛聯合實驗室團隊(HFL),如今寶座易主,成了平安壹賬通的囊中之物。雖然排名讓人略感意外,但是人家成績還是過硬的。

本次的SQuAD競賽中,這位新晉冠軍深度學習模型的閱讀理解能力已非常接近人類水平,精準匹配準確度可達到83.435%,模糊匹配準確度可達到85.992%,而人類水平是86.

831%(精確匹配)和89.452%(模糊匹配)。 整合模型EM=83.

435%、F1=85.992%,單模型EM=81.347%、F1:

84.560%,這兩個成績均屬現階段的世界第一,可以說這位新晉冠軍是名副其實的雙料王。

有一點值得一說,這家 @中國平安 旗下的金融壹賬通GammaLab成立時間其實還不到2年。兩年光景,SQuAD奪冠卻已經不是他們獲得的第乙個世界第一了。特地查了下官方資料,今年上半年,人家還收穫了「微表情國際權威評測OMG微表情競賽(One Minute Gradual Emotion Challenge)」的世界第一,以及下半年的「2018 EmotioNet 國際面部動作單元(Action Unit, 簡稱AU)識別競賽」的世界第一。

講真,我感覺要重新認識下這家公司了。

其實對比2023年1月份的訊息,SQuAD榜單當時顯示的機器閱讀理解能力首次超越人類水平的說法是不夠準確的,至少對比現在加深難度進入SQuAD2.0時代後的情況來看,機器「超越」人類的說法是難以為繼的。2023年12月3日的最新榜單顯示,沒有任何一家企業可超越人類認知的標準線,就算是榜首平安也是無限接近的狀態中,尚未實現同步或完成超越。

超越或許為時尚早,但是可以看到的是,機器閱讀理解能力確實已經非常接近人類認知水平,人工智慧深入到人類生活的方方面面也在不遠的未來。

3樓:瑪莉蓓爾

標題要是準確點,表述成「計算機在對文字的精準匹配的能力上超越人類」就沒啥稀奇了,計算機精準匹配本來就早晚要強過人類的。

但是那不表示計算機的文字理解能力超過人類。

因為我想起某些人的理解能力實在不能忍。

4樓:

現在機器智慧型的底層技術,仍然沿用資料統計來做。拋開表象不談,機器智慧型的實現路徑,是靠著算力和演算法。就是利用龐大的計算機集群,加上軟體的強大儲存計算來實現。

換句話說,只要後端的資料量足夠大,機器計算儲存能力跟得上,演算法又好,三者結合就能取得不錯結果。但是這樣的處理方案,離真正意義上的AGI還是相去甚遠。

5樓:鄰家大哥哥呀

很正常吧

人各有異每個人對於文字的理解不同以及美人的理解能力也不盡相同,比賽中所謂的超越也就是個別電腦而已。理解範圍也只限於文字,當然也很值得驕傲了畢竟這是咱們人類技術上的又一進步嘛

6樓:運動碼農

個人參加這個比賽最好成績17名,

我還是看好這個比賽,刷到82-83分跟牛,以後刷到90就起碼可以說模型搞定了這個資料集,甚至模型理解了這部分資料,

雖然存在如其他人說的很多種種問題,比如人類水平其實應該在95,但這些工作已經給未來解決更複雜的文字推理等問題提供了基礎,說到這個我就感覺自己也要繼續努力追趕的。

7樓:三觀有點不正

他說他愛他,他說她不愛他,她愛的是他,他不覺得她愛他,所以他只好愛他。 這句話你讓機器去理解吧,到底有幾個人,人物關係怎樣

8樓:ZZZ啦啦啦

「讀題」是閱讀理解中最重要的過程之一,人家說的是在ExactMatch指標上首次超越人類,你非要說「計算機文字理解能力」超越人類了。如果閣下的這種文字理解能力可以代表人類水平,我只想問被AI超越很奇怪嗎?

9樓:鶸ZiP

瀉藥。不意外。

以及,這個比賽準確描述應該是「計算機完成英語閱讀理解題的能力」。

有固定答案,類似於語文高考裡的科技文閱讀後面的選擇題。

在計算機強大的計算力保證下,遲早會實現。

而文字理解,*度百科定義為「對一句話、一件事、乙個人等被用話語記錄下來並且解讀」,我認為是一種類似於「一千個讀者眼中有一千個哈姆雷特」或者「魯迅先生表達了什麼」這樣千人千面的解讀能力。

在這個方面,人工智慧還有很長的路要走。

10樓:Cameron Lian

從 SQuAD 的資料庫分析中我們可以看到計算機的資訊分析模型和文字分析能力都有著很大的提高,這也是計算機在認知智慧型領域方面的巨大突破

11樓:Walking

首先呢,計算機對文字的理解肯定和人類還是有差距的,可能就單純的文字字義面上說,計算機做的比人快。但是很多文字語言其中都摻雜著情緒的。舉個例子:

就拿現在很火的遊戲我們稱「吃雞」,但是如果文字中出現了,計算機就不知道指的是啥了。在這一點我看來計算機肯定是理解不了的,人類也不可能讓計算機去掌握,如若計算機摻雜了人類情緒,到時候不就是真正的人機大戰了嘛

12樓:

想大致體會一下什麼水平的, 可以試試allennlp做的demo:

這裡用的是16年的模型BIDAF而且沒有做ensemble, 這裡的EM score是68.3, 距離現在榜單上超越人類水平的模型(82.65)差了不少, 不過可以勉強體驗一下.

大概淺層的語義理解和文字匹配已經做得很不錯了, 不過稍微糊弄一下很容易騙過去.(這個demo應該可以做成收集對抗樣本的= =)

作為工程上的勝利已經做得很棒了, 不過NLP需要新的思路, 目前的各種網路+attention不能解決本質問題,期待著有人引領下一波潮流~

That's all.

13樓:周健睿-青鳥

作為乙個工具文明,工具幫助我們比自身做的更好,不是很正常的事情嗎?

火車比人跑得快,大家可以接受吧?並且在火車還很慢的時候,大家對此就有心理預期了。

認知,理解,思考這些事,也是跟奔跑一樣

最終我們的工具會輔助我們,讓我們做的更好。

不需要過分解讀和擔心。

希望奇點更快到來。

14樓:

現在的機器學習層次還不夠,目前是絕大多數基於規則的,而不是基於更高層次抽象的,對文字解析來說,如果只就文本來分析,多試驗一些方法,效果會更好,這就相當於一群人操作乙個機械人和乙個人對打,打贏了只能說明兩件事,第一是操作提線木偶的能力不錯,第二是木偶還算不錯。

機器學習可以分為各個階段:

第一階段是什麼都不行,還不如瞎猜,但是積累了一些方法。

第二階段是,部分場合比人類強了,或者個例分析雖然比不上人類,但是可以批量搞,比瞎猜強。

第三個階段是,批量搞效果也不錯了,比大多數人強。

第四個階段是,在某些場合比絕大多數人類強。

第五個階段是,對人類的全方位超越。

而真正的超越則是不需要人工干預,通過學習來掌握規則逐步調整,然後自己領悟內容,打敗人類,這個需要擁歸納、演繹、聯想能力,如果機器在這個層面覺醒了,那麼機器世界的進化一天恐怕比我們十年一百年都要兇猛。

15樓:天真思密達

從識別率結果看,ai是超越了人類,但是人類的一些技能是不需要進行學習的,但是AI需要,例如:如果你能懂看段這話,就會現發文字的續順對類人的閱讀沒有太大的響影,但是對人工能智來說,則要需進行大量的對針性的習練。

16樓:虞山居士

在某些特定方面,比如說下棋這些來來去去的步驟。計算機真或許是超人類了。人類可能還會給情緒、心情等等因素影響。

計算機就是乙個機器。就算是自動駕駛也是在實踐中。或許未來有天真成功,或許要等若干年年年後才能實現。

17樓:答得喵考試中心

老實說,人工智慧這個東西,能有發展真的是好事。

但是,再厲害,還是想說,人類的語言還是一樣很奇妙的東西,如果機器可以做到精確精準,估計老師都要下課了,語言需要溝通,溝通裡的一些東西,一些文化的東西,是你進入之後才會懂得的。如果翻譯可以拿機器來做,估計就沒有同聲翻譯和翻譯工作的事情了,那些文學巨著就不需要翻譯了,那麼字幕組就不用混了。

現在的人工智慧,是在人類的思路上去發展的,你還是無法去和人的閱讀理解去比較。如果這麼弄,語言的精妙就不用談了。語言這東西是幾千年文化的積累,畢竟和這個相比,真的太渺小了。

還是覺得,畢竟人腦比機器更複雜。

18樓:易元

標題黨而已。估計以後超大資料成功以後,反覆學習人類網際網路上的知識,會出現睿智的賢者超算,普通人的幾乎所有問題他都會像人一樣回答。那時人類就會爭論他到底有沒有智慧型,智慧型有沒有唯一標準。

19樓:曾毅

「計算機文字理解能力首次超越人類「,不存在的!

文中進一步說明是「ExactMatch (精準匹配)指標「上超越人類,在這種技術型指標下,我認為是可能的,畢竟機器對某乙個技術型指標調優是可以實現的,但文字理解是複雜的,並非單一技術型的指標就能得出這個結論。

什麼叫技術型指標,舉個例子:計算機對語音轉換為文字的速度超過人類。

如何看待「斯坦福眾籌學姐」 「不在浙大讀書很幸運」這一言論?

回答這個問題的大多數是學生吧,這種問題不值得 看待 活二十多年還沒意識到人跟人有多大區別,在這裡問如何看待就表示你對跟你有不一樣價值觀的人抱有不切實際的幻想。還有就是這些眾籌的,今天朋友的朋友媽得癌要眾籌,明天二大爺的三姑心臟病要眾籌,後天想買藍博基尼眾籌。沒有創造足夠的價值卻要享有別人的勞動,我就...

如何看待鬥魚爐石傳說百人挑戰賽?

突然間想算算自己的遊戲時間。天梯6000 勝。按勝率60計算 總計10000場。每場10分鐘。總計100000分鐘。1666小時。 小賤人方丈當時天體刷獵人等職業12勝,打一下午贏了將近20場。我休閒玩家每天對邊打打,乙個月也就贏不到100場。這比賽讓連續贏100場,呵呵,策劃怎麼不連續擼100發?...

2017 斯坦福創業課 如何打造產品(一)

於大吉 欲 知 行三者若能真正順序閉合 和諧 適當,那人是不至於心理困惑的,只有當三者之間有了衝突 割裂 不合比例,人才會心理困惑,此時的這欲知行的閉環好似 斷路 斷路多是由於在欲 知 行三個環節中,某個環節成長變化,同時其餘的環節尚未跟上。例如 青春期的青年,性發育成熟,但性知識缺乏,而生煩惱 或...