一道bat面試題快速替換10億條標題中的5萬個敏感詞，有哪些解決思路？

1樓：汪周洋

這個題目其實這些一億條標題，五萬個敏感詞都是唬人的，就是想考你，給你乙個敏感詞表，然後從乙個文字中找出是否有敏感詞，至於替換是順手的事情，標題數量多也是要乙個個做。核心就是根據敏感詞表建乙個樹可以快速的判斷字串是否有敏感詞。這一般是bat這種公司過濾敏感詞的乙個功能，這其實考不了啥的，沒做過的話一下怎麼想的到

2樓：白起

5萬個敏感詞，想辦法構造出乙個正規表示式就可以大大提高速度了。

正規表示式本質上和DFA是等價的，可能就是他們所說的AC自動機。只是這個東西該怎麼構造，得好好想想。

好像能搜到一些正規表示式自動生成的工具的，看看塞進去五萬個敏感詞會發生什麼情況。

3樓：airBNB

先看看敏感詞表的特點，如果大部分敏感詞處於2到3字的長度，直接用hash表做，每次遍歷標題查詢是否在hash表中。對於部分長度超過3個字的，每次遇到做些額外匹配就行。

4樓：圖圖

-------做些完善--------

拋個磚，寫個思路，權當樂呵

敏感詞：0.5*10^5 個(50k)。

顯然，需要替換的詞相對所有詞來說是少了幾個數量級，所以我的思路是要用盡量少的時間複雜度定位敏感詞。

首先考慮hash表，32bit的位址佔200k Byte，考慮1倍餘量要400kM；平均乙個詞2個漢字算，utf-8編碼乙個漢字佔3位元組左右，有50k*2*3=300k。不到1M，完全可以塞進cpu的cache，可行。如果敏感詞更多的話，另當別論。

其次，再hash表前，建立敏感詞的bloom filter，減少比較次數。猜測敏感詞不會太長，如果最長的詞有4個字(更長的敏感詞也不影響時間複雜度)，則遍歷4遍，分別查詢1、2、3、4個字的詞，就能找出所有『』疑似敏感詞『』。疑似敏感詞通過敏感詞組成的hash表或是字典樹，就可以搞定了。

關於bloom filter錯誤率的選擇：

可以選擇11個hash函式，此時空消耗16*50k/8bit=100kByte，錯誤率e=0.5^11=0.05%。

時間消耗：1G*4+(1G*0.05%誤認敏感詞+x真實敏感詞)*1(50k敏感詞，hash表)，大概4G+500k+x。

只在hash表中存在比較運算，不必要的比較次數緊為1G*0.05%，是直接用hash表的0.05%，而多消耗空間僅僅10%多一點，理論上速度會更快。

5樓：AWP996

敏感詞建樹是什麼鬼？要不題主是記錯了，要不面試官是個半瓶子水。@Barty 自動機是正解，自動機對付很多計算機問題真乃神器。

一道bat面試題快速替換10億條標題中的5萬個敏感詞，有哪些解決思路？

一道程式設計師面試題？

一道面試題，這是什麼演算法啊？

虛構一道面試題有1 10億數字的亂序陣列，其中少了若干個數（不超過100個），怎麼找到這些少的數呢？

其他用戶還看了：

一道bat面試題 快速替換10億條標題中的5萬個敏感詞，有哪些解決思路？

一道程式設計師面試題？

一道面試題，這是什麼演算法啊？

虛構一道面試題 有1 10億數字的亂序陣列，其中少了若干個數（不超過100個），怎麼找到這些少的數呢？

其他用戶還看了：

一道bat面試題快速替換10億條標題中的5萬個敏感詞，有哪些解決思路？

虛構一道面試題有1 10億數字的亂序陣列，其中少了若干個數（不超過100個），怎麼找到這些少的數呢？