一(yī)、雲廠商(shāng)
阿裏雲、百度雲、騰訊雲
二、開(kāi)源項目
1、 observerss/textfilter
語言: Python,Star爲1.7k。
詳情: 短文本匹配 + 某1w詞敏感詞庫。
技術: Native(for遍曆), BS(二分(fēn)搜索), DFA(就是字典樹(shù))。
2、 minitrill/TextAudit
語言: Python,star爲0.056k。
詳情: 短視頻(pín)app文本審核模塊:1.二分(fēn)類,惡意與否; 2.詳細分(fēn)類; 3.後處理(對于不同頻(pín)率/不同程度/不同影響力的言論)。
技術: DFA + 分(fēn)類模型(TIDF + BayesianNetwork)
3、 houbb/sensitive-word
語言: Java,star爲0.339k。
詳情: 高性能敏感詞工(gōng)具。
技術: DFA + 某6W敏感詞庫。支持用戶自定義敏感詞和白(bái)名單、支持數據的數據動态更新,實時生(shēng)效。
4、 elulis/sensitive-words
語言: Java,star爲0.411k。
詳情: Java快速中(zhōng)文敏感詞過濾,在15k敏感詞庫上的過濾速度超過50M字符每秒。
方法: DFA + 2字符hash優化。
5、 youzan/YZSpamFilter
語言: Python,star爲0.266k。
詳情: 有贊垃圾内容過濾工(gōng)具,可爲帖子、郵件、博客等提供中(zhōng)文垃圾信息過濾服務。
方法: 二分(fēn)類模型,數據爲垃圾郵件過濾。
6、 toolgood/ToolGood.Words
語言: C#,star爲2.9k。
詳情: C#語言,使用StringSearchEx2.Replace過濾,在48k敏感詞庫上的過濾速度超過3億字符每秒。(cpu i7 8750h)
方法: 正則轉DFA,C#改進版AC自動機, 可設置跳字長度,默認全角轉半角,忽略大(dà)小(xiǎo)寫,跳詞,重複詞,黑名單。
- 版權所有:奇站網絡 轉載請注明出處
- 廈門市中資源網絡服務有限公司,專業提供網站建設,響應式網站建設,小(xiǎo)程序開(kāi)發,系統定制開(kāi)發。
- 軟件開(kāi)發咨詢熱線:吳小(xiǎo)姐 13313868605