2023敏感信息詞庫
詳情介紹
2023敏感信息詞庫內(nèi)含2023最新、最全的敏感詞,內(nèi)容覆蓋兩萬多條,包括色情、暴恐、反動、民生及貪腐等六大類詞庫。敏感詞主要的范圍指的就是帶有敏感政治傾向(或反執(zhí)政黨傾向)、暴力傾向、不健康色彩的詞或不文明語言,在現(xiàn)實(shí)中,隨著網(wǎng)絡(luò)科技的發(fā)展,隨著而來的網(wǎng)絡(luò)暴力也越來越嚴(yán)重,越來越的人因?yàn)榫W(wǎng)絡(luò)上的留言而走上輕生的地步,因此國家有關(guān)部分特意針對此類問題分布了一系列禁止出現(xiàn)的敏感詞,當(dāng)用戶在網(wǎng)絡(luò)上發(fā)帖或者發(fā)文章的時(shí)候,若出現(xiàn)此類敏感信息系統(tǒng)就將自動屏蔽,或者直接不允許分布。
★暴恐詞庫
★反動詞庫
★民生詞庫
★其他詞庫
★貪腐詞庫
2、敏感詞集合,共2W+的敏感詞,已通過程序算法去除重復(fù)項(xiàng)。
3、里面整理了最新網(wǎng)絡(luò)詞庫
4、考慮到各行各業(yè)需要的分詞規(guī)則不同,故沒有合并
5、文件為txt、xlsx文本用于敏感詞過濾
1.明確你的經(jīng)驗(yàn),是否是敏感詞密集型的主題,比如政治、性等在中國有管制的主題。如果是的話,那你就要注意你通篇的措辭,如何巧妙得選擇詞匯,避開敏感詞,將是非??简?yàn)寫手經(jīng)驗(yàn)的。
2.如果只是普通主題,那可能是一些詞匯的問題。這些詞匯,可能還是色情(OXOX)、廣告(鏈接、手機(jī))、政治(人名、事件)、罵人語等一般來說你只要發(fā)現(xiàn)文中有此類型(不和諧)的詞匯,都不用進(jìn)行下一步了,直接刪了或改了吧
二、對不確定的詞,進(jìn)行搜索嘗試
1.可以在百度經(jīng)驗(yàn)的搜索欄內(nèi)對可能的敏感詞進(jìn)行搜索,凡是出現(xiàn)顯示為“抱歉,沒有找到包含關(guān)鍵詞XX的經(jīng)驗(yàn)?!本涂梢源_定XX是敏感詞了
2.在搜索框內(nèi)搜索敏感詞,是根據(jù)“沒有結(jié)果”這個(gè)結(jié)果來判斷的。而很多時(shí)候搜索的句子太長,也會沒有結(jié)果。所以建議以“詞”為單位進(jìn)行搜
三、嘗試若失敗,建議通過隔離段落法來排查
1.在使用這種方法之前,你必須要明白這么做的代價(jià)。
那就是:因?yàn)槭褂酶綦x法,提交時(shí)你的文章是殘缺的,若檢測通過了,文章的狀態(tài)會變成“提交中”
2.此時(shí)的代價(jià)有:
風(fēng)險(xiǎn)1:通過的文章有很多地方不能修改了。比如標(biāo)題、分類、工具都不能修改了
風(fēng)險(xiǎn)2:可能因?yàn)槎温涞臍垞p導(dǎo)致審核不通過。
風(fēng)險(xiǎn)3:在不斷的復(fù)制粘貼中,留一份文章的附本吧,免得敏感詞沒照出來,文章都被剪沒了
3.隔離法究竟隔離幾段,留下幾段呢?
方法一:
一般的方法都是減去其中一段,提交剩下的段落,以此來確定減去的段落是否含有“不當(dāng)詞匯”,這種方法操作起來比較方便,建議首選。
但是有兩個(gè)缺點(diǎn),
1.如果是最后一段含有“不當(dāng)詞匯”,需要每段都提交一次。(所以應(yīng)該根據(jù)經(jīng)驗(yàn)來選擇隔離順序。)
2.如果運(yùn)氣很差,“不當(dāng)詞匯”出現(xiàn)了不只一次,在幾個(gè)段落里都有,那你用這種方法,根本查不出來啦
方法二:一段一段提交。
先提交一段,審核通過,再提交第二段,...,以此類推,直到出現(xiàn)不能提交的那段。但是并此方法不好,因?yàn)樘峤灰淮危托枰却龑徍艘淮?,相?dāng)耗時(shí)間。
但是這種方法克服了前面那種方法里,多段中都有敏感詞卻查不出來的缺點(diǎn)。
不過總的來說,這種方法并不常用
方法三:,不斷劃分文章進(jìn)行排查(相當(dāng)于二分法)。
把所有段落分成兩部分,先隔離第二部分,提交第一部分。
第一部分若通過,則證明敏感詞在第二部分中;若沒通過,則證明敏感詞就在第一段中。
此時(shí)選取有敏感詞的那部分,再次進(jìn)行劃分,提交。最終可以找到那有“不當(dāng)詞匯”的一段。
此方法是前兩種方法的折中,速度還可以,也可以查多段都有敏感詞的情況,建議第一種方法不行時(shí),用此方法
包含的敏感詞庫
★色情詞庫★暴恐詞庫
★反動詞庫
★民生詞庫
★其他詞庫
★貪腐詞庫
敏感信息詞概論
大部分論壇,為了方便管理,都進(jìn)行了關(guān)于敏感詞的設(shè)定。比如,當(dāng)你發(fā)貼的時(shí)候帶有某些事先設(shè)定的詞時(shí),這個(gè)貼是不能發(fā)出的?;蛘哌@個(gè)詞被自動替換為星號(*)或叉號(X)等,或者說是被和諧掉了。在多數(shù)網(wǎng)站,敏感詞一般是指帶有敏感政治傾向(或反執(zhí)政黨傾向)、暴力傾向、不健康色彩的詞或不文明語。也有一些網(wǎng)站根據(jù)自身實(shí)際情況,設(shè)定一些只適用于本網(wǎng)站的特殊敏感詞,例如很多電子商務(wù)網(wǎng)站會將一些涉及侵犯知識產(chǎn)權(quán),不宜銷售的商品,例如“山寨”、“水貨”、“盜版”、“刻錄”等設(shè)置為敏感詞,在商品簡介中這些詞是發(fā)不出來的。競爭對手的名稱在一些電商網(wǎng)站也是無法發(fā)出的敏感詞敏感信息詞舉例說明
例如“Pi”這個(gè)詞,在國內(nèi)“Pi”絕對算的上是敏感詞語,主要原因一是不雅,二是與黃色有連帶關(guān)系,但在現(xiàn)實(shí)中,“Pi”的使用率卻出奇的高,比如人們憤憤然說的“Pi民”、“Pi話”、“狗Pi不通”、“Pi滾尿流”等等,在正常的行文中經(jīng)??梢钥吹?。同時(shí)“Pi”在泰國一般用于稱呼某個(gè)人,如您叫陳,則在泰國就會被稱為“Pi陳”,同時(shí)果稱誰為“Pipi”,那更是尊稱,比如某老人或女人姓王,你叫她“Pipi王”,她會高興得不得了。顯然,在泰國“Pi”是個(gè)尊稱,類似我們說老王、小羅之類。特點(diǎn)
1、2023敏感信息詞庫整合了多個(gè)敏感詞庫,并添加java實(shí)現(xiàn)敏感詞過濾的工具類,需要根據(jù)具體業(yè)務(wù)適當(dāng)調(diào)整詞庫內(nèi)容。2、敏感詞集合,共2W+的敏感詞,已通過程序算法去除重復(fù)項(xiàng)。
3、里面整理了最新網(wǎng)絡(luò)詞庫
4、考慮到各行各業(yè)需要的分詞規(guī)則不同,故沒有合并
5、文件為txt、xlsx文本用于敏感詞過濾
百度經(jīng)驗(yàn)敏感詞排查方法
一、大致鎖定敏感詞出現(xiàn)的范圍,進(jìn)行替換嘗試1.明確你的經(jīng)驗(yàn),是否是敏感詞密集型的主題,比如政治、性等在中國有管制的主題。如果是的話,那你就要注意你通篇的措辭,如何巧妙得選擇詞匯,避開敏感詞,將是非??简?yàn)寫手經(jīng)驗(yàn)的。
2.如果只是普通主題,那可能是一些詞匯的問題。這些詞匯,可能還是色情(OXOX)、廣告(鏈接、手機(jī))、政治(人名、事件)、罵人語等一般來說你只要發(fā)現(xiàn)文中有此類型(不和諧)的詞匯,都不用進(jìn)行下一步了,直接刪了或改了吧
二、對不確定的詞,進(jìn)行搜索嘗試
1.可以在百度經(jīng)驗(yàn)的搜索欄內(nèi)對可能的敏感詞進(jìn)行搜索,凡是出現(xiàn)顯示為“抱歉,沒有找到包含關(guān)鍵詞XX的經(jīng)驗(yàn)?!本涂梢源_定XX是敏感詞了
2.在搜索框內(nèi)搜索敏感詞,是根據(jù)“沒有結(jié)果”這個(gè)結(jié)果來判斷的。而很多時(shí)候搜索的句子太長,也會沒有結(jié)果。所以建議以“詞”為單位進(jìn)行搜
三、嘗試若失敗,建議通過隔離段落法來排查
1.在使用這種方法之前,你必須要明白這么做的代價(jià)。
那就是:因?yàn)槭褂酶綦x法,提交時(shí)你的文章是殘缺的,若檢測通過了,文章的狀態(tài)會變成“提交中”
2.此時(shí)的代價(jià)有:
風(fēng)險(xiǎn)1:通過的文章有很多地方不能修改了。比如標(biāo)題、分類、工具都不能修改了
風(fēng)險(xiǎn)2:可能因?yàn)槎温涞臍垞p導(dǎo)致審核不通過。
風(fēng)險(xiǎn)3:在不斷的復(fù)制粘貼中,留一份文章的附本吧,免得敏感詞沒照出來,文章都被剪沒了
3.隔離法究竟隔離幾段,留下幾段呢?
方法一:
一般的方法都是減去其中一段,提交剩下的段落,以此來確定減去的段落是否含有“不當(dāng)詞匯”,這種方法操作起來比較方便,建議首選。
但是有兩個(gè)缺點(diǎn),
1.如果是最后一段含有“不當(dāng)詞匯”,需要每段都提交一次。(所以應(yīng)該根據(jù)經(jīng)驗(yàn)來選擇隔離順序。)
2.如果運(yùn)氣很差,“不當(dāng)詞匯”出現(xiàn)了不只一次,在幾個(gè)段落里都有,那你用這種方法,根本查不出來啦
方法二:一段一段提交。
先提交一段,審核通過,再提交第二段,...,以此類推,直到出現(xiàn)不能提交的那段。但是并此方法不好,因?yàn)樘峤灰淮危托枰却龑徍艘淮?,相?dāng)耗時(shí)間。
但是這種方法克服了前面那種方法里,多段中都有敏感詞卻查不出來的缺點(diǎn)。
不過總的來說,這種方法并不常用
方法三:,不斷劃分文章進(jìn)行排查(相當(dāng)于二分法)。
把所有段落分成兩部分,先隔離第二部分,提交第一部分。
第一部分若通過,則證明敏感詞在第二部分中;若沒通過,則證明敏感詞就在第一段中。
此時(shí)選取有敏感詞的那部分,再次進(jìn)行劃分,提交。最終可以找到那有“不當(dāng)詞匯”的一段。
此方法是前兩種方法的折中,速度還可以,也可以查多段都有敏感詞的情況,建議第一種方法不行時(shí),用此方法
下載地址
- 電腦版
2023敏感信息詞庫
- 本地下載通道:
- 浙江電信下載
- 北京聯(lián)通下載
- 江蘇電信下載
- 廣東電信下載
網(wǎng)友評論
共3人參與互動,2條評論- 第2樓河北省廊坊市網(wǎng)友發(fā)表于: 2023-10-12 19:21:14
- 這是最新敏感詞是吧?0蓋樓(回復(fù))
- 管理員 回復(fù)發(fā)表于: 2023-10-13 11:25:20
- 是的,可以參考一下0蓋樓(回復(fù))
- 第1樓河南省鄭州市網(wǎng)友發(fā)表于: 2023-07-13 17:18:08
- 贊!非常好!0蓋樓(回復(fù))
(您的評論需要經(jīng)過審核才能顯示)