今日頭條升級靈犬反低俗助手
2019-08-02 10:47:24??來源: 責(zé)任編輯:陳楠 我來說兩句 |
7月30日,今日頭條宣布正式推出新版靈犬反低俗助手(以下簡稱“靈犬”),同時支持圖片和文本識別,。這是時隔半年后,“靈犬”的又一次重要升級,。 ? “靈犬”脫胎于今日頭條反低俗模型,,是一款檢測內(nèi)容健康度的輔助小工具,致力于打擊低俗低質(zhì)內(nèi)容,,凈化網(wǎng)絡(luò)空間,。用戶目前可以在今日頭條內(nèi),搜索“靈犬”進(jìn)行試用,。 當(dāng)天下午,,一場名為“算法如何反低俗”的溝通會在字節(jié)跳動總部舉辦,。字節(jié)跳動人工智能實(shí)驗(yàn)室總監(jiān)王長虎現(xiàn)場介紹了“靈犬”背后的技術(shù)原理,。 據(jù)了解,,在文本識別領(lǐng)域,新版“靈犬”同時應(yīng)用了“Bert”和半監(jiān)督技術(shù),,訓(xùn)練數(shù)據(jù)集包含920萬個樣本,,準(zhǔn)確率提升至91%。在圖片識別領(lǐng)域,,“靈犬”采用深度學(xué)習(xí)作為解決方案,,在數(shù)據(jù)、模型,、計算力等方面均做了針對性優(yōu)化,。 “靈犬”使用人次超過300萬 信息大爆炸時代,打擊低俗低質(zhì)內(nèi)容,,是當(dāng)前全球信息平臺都面臨的難題,,不管是國外的Facebook、Google,,還是國內(nèi)的微信,、今日頭條,都在尋求解決方案,。 反低俗無法單一地依靠技術(shù)或人工解決,。王長虎表示,低俗的定義相對籠統(tǒng),,很難完全精確地定義出來,,這項工作即使對人來說也不容易,交給機(jī)器做更難實(shí)現(xiàn),,而在當(dāng)前內(nèi)容創(chuàng)作和消費(fèi)海量增長的趨勢下,,純靠人工解決,效率低,,無法有效滿足用戶需求,。 ? 王長虎分享“靈犬”背后的技術(shù)原理 今日頭條是國內(nèi)反低俗的先行者,而“靈犬”是今日頭條反低俗系統(tǒng)的一個簡化版本,。據(jù)了解,,2012年以來,今日頭條內(nèi)部搭建了反色情,、反低俗,、反標(biāo)題黨、反虛假信息,、反低質(zhì)等數(shù)百個模型,,并投入近萬人專業(yè)審核團(tuán)隊,。“作為行業(yè)領(lǐng)先者,,在內(nèi)容安全上,,今日頭條一直用最高的標(biāo)準(zhǔn)要求自己,”王長虎說,,“靈犬是一個開放的反低俗窗口,,我們希望通過靈犬,接收社會各界對反低俗的意見和建議,?!?/p> 新版“靈犬”重點(diǎn)拓展了反低俗識別類型和模型能力,現(xiàn)已覆蓋圖片識別(反色情低俗,、反血腥暴力)和文本識別(反色情低俗,、反暴力謾罵、反標(biāo)題黨),。后續(xù)還將支持語音識別和視頻識別,。 此前一年時間內(nèi),“靈犬”已陸續(xù)完成兩次迭代,。2018年3月28日,,今日頭條首次上線“靈犬”,支持檢測文字和文章鏈接,。2018年5月16日,,“靈犬”完成服務(wù)能力升級,增加反色情短文本模型和反謾罵模型,,將準(zhǔn)確率從73%提升至82%,。2019年2月20日,“靈犬2.0”正式上線,,除了反色情低俗模型,,加入反暴力謾罵和反標(biāo)題黨模型,覆蓋了主要的低俗低質(zhì)內(nèi)容類型,,整體識別準(zhǔn)確率接近85%,。截至2019年6月,靈犬反低俗助手的使用人次已經(jīng)超過了300萬,。 用戶只需要在“靈犬”內(nèi)輸入一段文字或文章鏈接,,“靈犬”就可以幫助其檢測內(nèi)容健康指數(shù),返回一個鑒定結(jié)果,。對于用戶輸入的內(nèi)容,,“靈犬”會先進(jìn)行提取、分詞和語義識別,,然后根據(jù)相關(guān)規(guī)則,, 輸出對應(yīng)的分?jǐn)?shù),、評級和結(jié)論。這一切都在短短幾秒內(nèi)完成,。圖片和圖片鏈接檢測同理,,用戶在“靈犬”內(nèi)上傳圖片或圖片鏈接,即可快速獲取鑒定結(jié)果,。 “靈犬”背后的技術(shù)迭代 據(jù)王長虎介紹,,“靈犬”背后的文本分類模型,,已經(jīng)經(jīng)過了三次迭代,。每個新版本相對于舊版本,在技術(shù)和數(shù)據(jù)集層面,,都有一個明顯的躍升,。 第一代“靈犬”,應(yīng)用的是“詞向量”和“CNN(卷積神經(jīng)網(wǎng)絡(luò))”技術(shù),,訓(xùn)練數(shù)據(jù)集包含350萬數(shù)據(jù)樣本,,對隨機(jī)樣本的預(yù)測準(zhǔn)確率達(dá)到79%。第二代“靈犬”,,應(yīng)用的是“LSTM(長短期記憶)”和“Attention”技術(shù),,訓(xùn)練數(shù)據(jù)集包含840萬數(shù)據(jù)樣本,準(zhǔn)確率提升至85%,。 新版“靈犬”同時應(yīng)用了“Bert”和半監(jiān)督技術(shù),,并且在此基礎(chǔ)上使用了專門的中文語料,在不犧牲效果的情況調(diào)整了模型結(jié)構(gòu),,使得計算效率能達(dá)到實(shí)用水平,。“Bert”是當(dāng)前最先進(jìn)的自然語言處理技術(shù),,是該領(lǐng)域近年來重大進(jìn)展的集大成者,。這項技術(shù)在常見的閱讀理解、語義蘊(yùn)含,、問答,、相關(guān)性等各項任務(wù)上,大幅提高了性能,。 這一代“靈犬”訓(xùn)練數(shù)據(jù)集總量是1.2個T,,相當(dāng)于20倍百度百科或100倍維基百科的數(shù)據(jù)總量,包含920萬個樣本,,準(zhǔn)確率提升至91%,。 不同于文本識別,圖片識別的技術(shù)難點(diǎn)主要在于三方面:非均衡,、類內(nèi)方差大和不可窮舉,,即,,低俗圖片占整體圖片內(nèi)容的比例較低,低俗圖片的種類豐富,、繁雜,,構(gòu)成低俗圖片的特征千差萬別。 對此,,“靈犬”運(yùn)用的解決方案,,是深度學(xué)習(xí)?!拔覀兎謩e在數(shù)據(jù),、模型、計算力等方面做了很多優(yōu)化,?!蓖蹰L虎說。數(shù)據(jù)層面,,“靈犬”已累積上千萬級別的訓(xùn)練數(shù)據(jù),。模型層面,“靈犬”針對許多困難樣本做了模型結(jié)構(gòu)調(diào)優(yōu),,嘗試解決多尺寸,、多尺度、小目標(biāo)等復(fù)雜問題,。計算力層面,,“靈犬”利用分布式訓(xùn)練算法以及GPU訓(xùn)練集群,加速模型的訓(xùn)練和調(diào)試,。 一些技術(shù)難以搞定的問題,,現(xiàn)階段還有賴于人工判斷。比如技術(shù)暫時難以制定標(biāo)準(zhǔn)的案例:世界名畫中常常出現(xiàn)裸體女子,,如果完全交由機(jī)器判斷,,機(jī)器通過識別畫中人物的皮膚裸露面積,就會認(rèn)為這幅畫是色情低俗的,;而某些拍攝芭蕾舞的圖片,,以機(jī)器的視角來看,其實(shí)類似于裙底偷拍,。 此外是因?yàn)槭褂脠鼍?、人群不同而?dǎo)致標(biāo)準(zhǔn)變動的案例:內(nèi)衣和內(nèi)衣模特出現(xiàn)在購物平臺上,會被默認(rèn)為正常,,但如果頻繁出現(xiàn)在新聞資訊平臺上,,就可能被認(rèn)為有低俗嫌疑;正常的熱舞內(nèi)容,,提供給成年人看,,符合常規(guī)標(biāo)準(zhǔn),,但如果開啟了青少年模式,這些內(nèi)容就不應(yīng)該出現(xiàn),。 王長虎說,,針對低俗判斷問題的復(fù)雜性和不同判斷方式的局限性,一方面需要不斷進(jìn)化技術(shù)模型,,一方面需要有效結(jié)合技術(shù)和人工判斷兩種方式,。 當(dāng)前,“靈犬”建設(shè)了比較完善的模型迭代系統(tǒng),。通過“數(shù)據(jù)收集—數(shù)據(jù)標(biāo)注—數(shù)據(jù)清洗—模型訓(xùn)練—模型評估—badcase分析”這一套完整的流程,,持續(xù)做優(yōu)化。 ? |
相關(guān)閱讀:
打印 | 收藏 | 發(fā)給好友 【字號 大 中 小】 |
信息網(wǎng)絡(luò)傳播視聽節(jié)目許可(互聯(lián)網(wǎng)視聽節(jié)目服務(wù)/移動互聯(lián)網(wǎng)視聽節(jié)目服務(wù))證號:1310572 廣播電視節(jié)目制作經(jīng)營許可證(閩)字第085號
網(wǎng)絡(luò)出版服務(wù)許可證 (署)網(wǎng)出證(閩)字第018號 增值電信業(yè)務(wù)經(jīng)營許可證 閩B2-20100029 互聯(lián)網(wǎng)藥品信息服務(wù)(閩)-經(jīng)營性-2015-0001
福建日報報業(yè)集團(tuán)擁有東南網(wǎng)采編人員所創(chuàng)作作品之版權(quán),,未經(jīng)報業(yè)集團(tuán)書面授權(quán),,不得轉(zhuǎn)載、摘編或以其他方式使用和傳播
職業(yè)道德監(jiān)督,、違法和不良信息舉報電話:0591-87095403(工作日9:00-12:00,、15:00-18:00) 舉報郵箱:[email protected] 福建省新聞道德委舉報電話:0591-87275327