如何看待依圖宣稱領先訊飛約 20 ？

1樓：

總覺得這個問題的答案是

「訊飛『人工』智慧型的客服數量是12345人，而我們的『「人工」智慧型』客服數量是12345*1.2=14814人，比訊飛提公升接近20%」

「訊飛『人工』智慧型的客服的平均工資是2345元/月，而我們的『「人工」智慧型』客服平均工資是12345*1.2=2814人，比訊飛提公升接近20%」

「訊飛上一年『人工』智慧型領域一共支出了***元，我們在這個領域一共支出了28949025*1.2=34738830元，比訊飛提公升接近20%」

至於其他的……

跟乙個用人工做人工智慧的公司，真的有可比性嗎？

開個玩笑，用的是幾年前的梗，如果今日這些梗不再適用，請不要見怪至於你說，為什麼14814*2814不等於34738830我怎麼知道……

2樓：明天會更好

並不意外，現在就是乙個小公司憑藉技術創新趕超大公司的時代。

對於大公司來說，保持技術領先的乙個方式就是收購技術驅動型的小公司，比如谷歌。但在訊飛身上，似乎很少看到有類似的作為。

訊飛現在更多的是產業鏈方面的布局，深化落地，技術方面雖然也頻頻刷榜，但也時長在一些小公司發布的技術榜單中「陪榜」。

比如依圖這次，訊飛「陪」的還是明確了測試資料集的「榜單」，之前說好的98%呢？具體是哪個資料集下測的呢？如果是自己設定的資料集，可不可以公開一下讓大家都試試？

頻頻被新銳小公司PK成績對訊飛來說真心不是一件好事，那說明你的技術已經沒有壁壘。

AI時代，演算法只領先1%，那不是實力，而是危機。因為演算法效能現在是以摩爾定律的節奏發展，你稍微打個盹的功夫，可能就要被人家趕超了。

很多人仗著訊飛20年的資料和行業積累優勢，卻忽略了訊飛作為技術驅動的大公司的本質，應該是什麼！

就怕訊飛自己也蒙蔽其中

3樓：

語音識別這行能有什麼技術壁壘，演算法都是開源的，工具也是開源的。找個研究生，按照工具說明搞上乙個月，也能大概搭乙個湊合能用的系統出來。

那這幫AI做語音的公司靠什麼保持競爭優勢呢？

我覺得乙個是業務整合能力，比如語音+智慧型音箱，語音+輸入法，語音+智慧型導航，語音＋智慧型問詢等等，這些就會涉及一些具體應用場景的業務優化和相關技術。

還有乙個就是資料了，演算法都一樣，那人工智障只能大力出奇蹟了，資料往上堆。一般做研究的資料都是幾千小時訓練，標註都是自動標註，但是這幫公司不怕燒錢，幾十萬小時資料+人工標註，識別效果上的優勢就出來了。而且這個資料最好結合業務，繼續積累資料，這樣才能良性迴圈讓效果更好。

但是依圖作為語音界的新手玩家，來到這麼一片紅海，目前唯一能做的就只有先搞一些資料堆出乙個好模型，然後再造造勢，讓自己有活接，之後把業務整合做起來。樹立起自己的品牌。

所以目前看來，依圖正處在造勢階段，所以才有這樣的新聞，但是實際水平肯定是和行業大佬有差距的，畢竟對手積累了那麼久了。

4樓：東森新聞

20%不管真的假的，但識別率確實不錯，找幾個同事試了下，都是最好的。語音識別這種對比很簡單嘛，很多人不信的話，說上兩句試試，不就OK了

5樓：陸家嘴郭德綱

最讚答案看似打臉問題，而且有圖有真相，說明訊飛識別速度更加領先，但實際上正說明了訊飛隱藏的危機

首先我們看下兩者體量和歷史

科大訊飛市值518億元（17年達到千億），成立於2023年，員工數8659

依圖科技估值150億元（18年年中），成立於2023年，員工數16年剛100多人

這是科大訊飛的江湖地位

這是依圖，最近才有市領導稍微看了下

可以看到兩者並不是乙個體量的競爭，科大訊飛貴為A股AI龍頭，卻要不時和乙個獨角獸比較本身就說明公司並沒有護城河

比較AI技術，大家還是看數字/競賽，而不是看品牌，說明暫時領頭的訊飛並沒有類似可口可樂品牌的無形資產，當然這也是科技行業的宿命，這對股東並不是好事

0.4秒和0.6秒看上去還有50%的差異，但再過一年，如果分別壓縮到0.

2秒和0.3秒，即使差異還是50%，但實際上在應用層面兩者已經相當接近，滿足多數使用者體驗，可見技術的提公升帶來的邊際收益是遞減的

比較一下晨興創始人總結的四大護城河：無形資產（要能產生溢價的的品牌才有價值，在準確率一直情況下，消費者顯然不會為訊飛AI付出比依圖AI更多的錢）；客戶轉換成本（B端和G端客戶有，C端完全沒有，如果單純軟體，不是和硬體/業務結合的解決方案，那也很低）；網路經濟（不多，不是社交網路那樣強調客戶粘性）；成本優勢（不是製造業，很少規模效應）

總之，訊飛如果再對微弱的領先洋洋自得，甘心放下身段和獨角獸互相較量，那留給自己的空間會越來越少

特別是谷歌/微軟等巨頭直接提供AI技術API，成熟之後就沒有中介什麼事了，就像買電直接去火電廠就行了

6樓：風箏沒風

看到訊飛的人在說，小程式裡呼叫的是開放平台，不代表訊飛當前最好的水平。畢竟人家有自己的商業邏輯，開放的東西，不放最好的模型，想用的話，付費啊。

這個的確沒有問題。但這得是在開放平台同樣有很好競爭力的基礎上，才能實現的。

如果有一天別人開放的演算法，跟你付費的演算法水平差不多，其實就會倒逼你把自己更好的演算法開放出來。

從這次公布的效果來看，依圖跟訊飛最好的也是付費的訊飛聽見，處於乙個水平

所以依我看，依圖這次「拆台」，還是起到乙個鯰魚效應——反正我現在不靠語音賺錢，我就把最好的東西都放到開放平台上來，有種光腳不怕穿鞋的感覺。

最終受益的其實還是開發者

不知道是不是有點像當初360宣布防毒軟體免費，一下子乾掉傳統殺軟的情景。

那麼除非別家殺軟效能比我好很多，否則我幹嘛不去用這個免費的。

那別人還怎麼賺錢呢?要麼提公升技術，要麼改變模式!否則，這麼發展下去，整個行業多多少少會有點懶惰的感覺。

你說依圖短時間內會指望拿語音這塊來賺錢麼，他們科學家都說根本沒去想。人家就是要先開放出來，再看。人家靠安防和醫療的視覺業務，也有不少錢賺啊。

所以，依圖這次發布個語音，是不是技術上真的全面超過訊飛了，只是一方面，更關鍵的是我拿免費的東西挑戰你收費的東西，如果真是這樣的話，訊飛多多少少會感受到一點威脅吧??

不得不說，靠賣技術來活的話，就要保證技術領先性。

畢竟語音這塊，技術上還有很大發展空間的。

7樓：Yuki

這次最大的贏家不是AISHELL麼，我看把AISHELL官方都吸引過來了。個人覺得，這也算一件好事，以後再有某家公布中文語音識別的準確率時，大家就會想著，拿AISHELL跑一下唄？否則現在大家公布準確率，都不提資料集，誰知道真實水平到底怎麼樣？

圈裡不是有句話麼，只發布測試成績，不提資料集的都是耍流氓。

再來看看為啥是AISHELL-2。這裡copy一下：

AISHELL2是資料規模達到1000小時和更優秀的系統級recipe，同時，也成為目前全球最大中文開源資料庫。而之前的中文語音資料庫時長明顯會少很多，比如THCHS30為40小時左右，ST-CMDS大約100個小時，之前的AISHELL資料集也只有200個小時。資料庫的時長是模型學習的重要組成部分，另外，AISHELL-2還配備了一套evaluation資料集，TEST&DEV資料報含了iOS、Android、高保真Mic三種裝置。

不過依圖還說後續會公布幾個自己的測試集，安靜場合和混響的，到時候各家都可以直接測一測。

總之，現在行業裡真的需要乙個公開公正的中文語音測試資料集，而且越大越好，1000小時算多麼？？我覺得還遠遠不夠，而且覆蓋的場景還是不一定豐富，比如遠場演講，多人開會什麼的。

期待越來越好吧！

8樓：張無忌

現在廠商技術上差別沒那麼大，大家都用類似的輪子。資料上我感覺差別也沒那麼大了。如果說一家比另外一家好很多，那可能真的是認真不認真，資料更新沒更新的差距了。

9樓：科技小捕快

我都醉了，我就是隨便測試一下，有人拿著我隨便測試的結果當做權威有點無聊了吧！

語音識別本來壁壘就不是很大，重點在語料庫和標註上，說難聽點誰的資料多，誰就是老大，但仔細想想我們用這些語音的頻率高嗎？只有將語音和實際應用結合起來，才會讓我們主動去用這些產品，才能提供更好更準確的資料。這些恰恰就在用這些語音開放平台的企業上。

怒斥群臣原版：當朝大學士，統共有五位，朕不得不罷免四位，六部尚書，朕不得不罷免三位。看看這七個人吧，哪個不是兩鬢半百，哪個不是朝廷的棟樑，哪個不是朕的兒女親家。

他們爛了，朕心要碎了。祖宗把江山交到朕的手裡，

人民的名義開會版：在科技局當了六年的局長，又當了五年的市委組織部部長，可是我們的農業科學家，我們的科學院院士，他大都不認識

新聞聯播版

10樓：

隨著越來越多國內企業在國際評測中名列前茅，刷榜的邊際效益會急劇下降，畢竟物以稀為貴。

我們即將進入到乙個新的階段，就是看哪家能像Google那樣持續地貢獻像Transformers，BERT這樣里程碑式的通用技術，引領相關領域的發展。

加油鴨！

11樓：

測了下馬雲爸爸的思聰家老王的的話，反正不管別人怎想，我覺得依圖這個語音識別還是能用的。不知道是不是每次都這麼準，我這兩次還是挺準的。上圖

12樓：對知乎很失望

各大語音廠商集體說謊了麼?在語音行業，自己的正確率不說97%以上似乎是一件丟人的事情，但實際上大多數程式的語音語義的識別率低下使得該技術始終等不上檯面，就算強行出台也是錯誤百出。

除了前一陣「人工耦合」並沒有什麼令人眼前一亮的純AI程式。所以各大廠商集體說謊了麼?其實並沒有，語音識別的難點的劃分比想象中要多得多：

不同的收音裝置，近場遠場和背景噪音的不同，不同的口音甚至方言等等。方言對於一絲不苟的程式來說就是一門外語，而帶口音的普通話也需要程式自身的超強糾錯能力。

而背景嘈雜的情況下對於機器收音來說更是難上加難。大多數程式目前還無法強大這種程度，以至於97%和98%這種實驗資料很難在日常應用中得到體現。所以以依圖科技這次的語音發布的96%點多的效果來看，依圖語音要比那些97%和98%的程式適用範圍更廣，就更表現了這個資料的含金量相當之高。

13樓：henkaixin

依圖這次公布的效果還是很好的，96.29%的正確率聽起來不如某飛，某度和某狗（不要擅自聯想~）的97%或98%那麼光鮮亮麗。這次依圖公開的不僅是正確率，還是在AISHELL2這個測試集上取得的成績。

這個資料集是目前無論從時長或是子集數量來說都是最大的中文開源資料庫。

所以資料庫有多重要呢？打個比方吧，我說我數學考試100分，你說你也數學考試100分，兩張卷子去不太一樣。乙個是不知道哪搬來什麼卷子，難度題目數量都不知道，另外乙個從小題開始就是拓撲函式級別的。

然後兩者得分差不多，但是含金量確實千差萬別。這只是乙個誇張的比喻，但是說明此次依圖科技公開測試集對於語音行業來說，無疑是提公升了其他玩家的遊戲難度。

如何看待依圖宣稱領先訊飛約 20 ？

2023年第一天，如何看待依圖科技CTO顏水成博士離職？

如何看待 Deepmind 宣稱最新版 AlphaGo 能讓李世乭版本 AlphaGo 三子？

如何看待 2014 3 28 羅永浩宣稱「汪峰」掉某手機在4 23舉行發布會這件事？

其他用戶還看了：

如何看待依圖宣稱領先訊飛約 20 ？

2023年第一天，如何看待依圖科技CTO顏水成博士離職？

如何看待 Deepmind 宣稱最新版 AlphaGo 能讓李世乭版本 AlphaGo 三子？

如何看待 2014 3 28 羅永浩宣稱「汪峰」掉 某手機在4 23舉行發布會 這件事？

其他用戶還看了：

如何看待 2014 3 28 羅永浩宣稱「汪峰」掉某手機在4 23舉行發布會這件事？