現在有哪些中文的聊天語料庫?

時間 2021-05-29 23:39:42

1樓:

Update: 2020/11/10

研究Topic Model時構造過乙份資料,將英文對話資料DailyDialog翻譯為了中文,部分資料如下,每行乙個utterance,對應乙個說話人,共約有9.7萬行:

命名為zhddline。

此外按照原資料中的會話片段進行組織,每一行構成乙個conversation,即若干輪對話,共約有1.2萬行,部分資料如下:

命名為zhdd。

以上資料集放在github上:

zhddline

原答案:

另外還提供對應的結構化劇本,資料長這樣:

結構化劇本

適合拿來做對話生成,對話分析或者機器翻譯。

對齊不完全準確,標註準確率90%+。

目前用了4部美劇來構建的這個語料庫,以後有時間再擴充套件吧,求讚求Star~

傳送門:

zll17/TV4Dialog

2樓:馬勇強

我對目前所有找到的語料進行了系統化的規整,放在這個庫里。

codemayq/chinese_chatbot_corpus該庫蒐集了包含

chatterbot

豆瓣多輪

PTT八卦語料

青雲語料

電視劇集對白語料

貼吧論壇回帖語料

微博語料

小黃雞語料

共8個公開閒聊常用語料和簡訊,白鷺時代問答等語料。

並對8個常見語料的資料進行了統一化規整和處理,達到直接可以粗略使用的目的。

3樓:憶臻

京東舉辦了全球首屆任務導向型多輪對話系統挑戰賽!資料集為百萬級真實資料,簡直不能太讚!

任務描述如下:

有興趣的童鞋可以參加獲取一下資料,也是蠻好的。

ps:沒有接受任何京東的推廣要求,只是我們實驗室要參加這個比賽,就貼出來當為答案了。

JDDC

4樓:hain

面向垂直領域智慧型問答的語料:

Samurais/insuranceqa-corpus-zh

是目前已知的最好的中文保險語料。

王陸的語料庫真的很有用嗎?

有用我聽力9 聽力材料是王陸 九分達人 劍雅 王陸我基本只看了345章完整過了3遍每一遍過完忘得差不多了再過第二遍不然你只是在練記憶力第3遍過完差不多90 正確率第四遍過的時候每一節都差不多95 感覺沒必要再刷就停了 有些片語的確不會用來填詞但在聽力文章裡會聽到然後也能幫助你去做題 就像寫作也不光是...

刷王陸語料庫有點費時,是方法的問題麼?

學為貴 根據王陸老師的指導,貴貴認為 A.關於費時 很多人在做練習的時候,都想用最高的效率,最短的時間,達到最大的收益,這個是我們追求的。假如將準備雅思考試到通過,比喻成一段路程,那麼你現在自身的水平決定了你的起點,你想要的分數決定你的終點,這也就導致了每個人的路程是不一樣的,每個人需要走過的路的長...

王陸的語料庫和復聽和點聽方法真的有效嗎?

江丫丫 我之前試了幾次,我覺得效率非常低。無論背單詞 練聽力還是閱讀寫作,都應當在句子整體上進行把握,甚至是全段。我是用練習聽寫真題句子的方式,把聽力原文背一遍再聽寫幾遍。第一次很挫敗,但之後聽寫正確率會越來越高。 一顆湯圓 這個語料庫用了之後最大感觸是 這本書是輔助用的,而且因人而異。首先得確認一...