亚洲最大看欧美片,亚洲图揄拍自拍另类图片,欧美精品v国产精品v呦,日本在线精品视频免费

  • 站長資訊網(wǎng)
    最全最豐富的資訊網(wǎng)站

    Facebook、YouTube都會遇到的內容審核難題,今日頭條是怎么解決的?


    本文作者結合Facebook和YouTube的案例,為我們介紹了今日頭條的內容審核機制,以及未來相關技術的發(fā)展對審核的影響。

    Facebook、YouTube都會遇到的內容審核難題,今日頭條是怎么解決的?

    時間來到2019年年中,F(xiàn)acebook全球月活已經(jīng)突破22億,Youtube是19億,微信也超過10億,可以說互聯(lián)網(wǎng)已經(jīng)覆蓋了全球大部分人口,而隨著使用人口同步激增的還有用戶時長,以及內容的生產(chǎn)消費量級也呈指數(shù)級井噴,這海量的內容無論對大平臺還是小公司都形成了巨大的管理難度和審核挑戰(zhàn)。

    Facebook、YouTube都會遇到的內容審核難題,今日頭條是怎么解決的?

    2018年Facebook 上每天上傳的照片超過3億張,每分鐘發(fā)布51萬條評論,30萬條新狀態(tài);每天在Instagram上的照片和視頻分享量為9500萬次;而在微信朋友圈,每天有10億張圖片被上傳。

    截止 2018 年,每天約有2.5萬億字節(jié)的數(shù)據(jù)被創(chuàng)建,過去兩年里生成的數(shù)據(jù)占到了全球總數(shù)據(jù)的90%,而預計到 2022年,全球互聯(lián)網(wǎng)流量講達到每秒 7.2 PB。

    在內容數(shù)量井噴的同時,內容的形式也在不斷變化。除了傳統(tǒng)的圖文類內容,音頻、長視頻和短視頻,以及直播的比例在不斷增加,這對于那些那些既追求實時性(發(fā)布速度和用戶體驗)、又追求不出問題(舉報率和負面事件)的內容平臺審核管理,提出了巨大而嚴峻的挑戰(zhàn)。

    Facebook、YouTube都會遇到的內容審核難題,今日頭條是怎么解決的?

    包括Facebook和Youtube在內的國際頂級UGC平臺,如今在這類老生常談的問題上依然十分吃力,尤其是發(fā)達國家最為在意的低齡內容、種族歧視和跨國文化/多語言等問題,它倆其實一直未能交出一份讓各方滿意的答卷。

    而國內今年比較知名的互聯(lián)網(wǎng)內容社區(qū)類產(chǎn)品里,下架甚至關停的已經(jīng)不下于10余款,盡管它們各自都有各自的問題,比如色情內容、微商、內容涉政等等,但歸根結底,這還是用戶激增帶來的日益增長的內容生產(chǎn)量和無法跟上的審核措施和效率之間的矛盾。

    一、Facebook:用AI和算力應對海量內容

    Facebook在整個2018年遭遇過巨大的信任危機,除了數(shù)據(jù)接口和用戶隱私的處理不當,平臺上的內容審核政策也受到嚴重質疑。

    但其實,它背后的核心問題是,這家公司本就是世界互聯(lián)網(wǎng)內容吞吐量最大的平臺。

    而這些內容并不只在Facebook app發(fā)布和消費,還在這家公司旗下月活15億的Whatsapp 、13億的Facebook Messenger和10億的Instagram上面?zhèn)鞑ズ屯茝V,所以這家公司承受的內容審核壓力才會如此之大。

    那么Facebook拿出的應對措施是什么?

    在去年那場著名的美國國會聽證會上,扎克伯格在一小時內提及AI三十余次,堅稱AI是平臺內容審核的答案,他的原話是:“未來的五到十年,AI將成為世界上最大的社交網(wǎng)絡的捍衛(wèi)者,在全球范圍內解決其最緊迫的問題,同時也幫助公司回答有關審核、公平和人類無節(jié)制等棘手問題?!?/p>

    小扎自稱,F(xiàn)acebook上99%有關ISIS和基地組織的內容,都在人們看到之前被人工智能系統(tǒng)標記,并且被刪掉。

    但AI想要和內容審核結合并落地,必須拿出一些具體的手段來。Facebook現(xiàn)在的審核分為文字審核、圖片和視頻審核,以及大量的人工配合。

    文字審核方面,F(xiàn)acebook推出了DeepText(深度文本)引擎,利用深層神經(jīng)網(wǎng)絡架構去理解那些帖子的內容,據(jù)稱它能夠以近乎人類的精確度、每秒同時理解數(shù)千篇文章的文本內容。

    相比國內的各大平臺的審核體系來說,它的優(yōu)勢除了速度更快,另一方面是Facebook作為一個全球化的社區(qū),DeepText能夠審核超過20多種語言的文字。

    DeepText甚至能實時通過用戶發(fā)送的內容分析用戶的想法,通過對意圖、情緒和實體(人物/地點/事件)的提取,結合文本、圖片,并自動移除垃圾信息的干擾,這一能力在Facebook Messenger上已經(jīng)被測試驗證。當然這個AI技術也并不只被用來審核一些可能發(fā)生的危險(針對青少年的犯罪),它還可以改進用戶體驗,幫助廣告商進行有目標的宣傳活動。

    Facebook為這些實時而海量的信息編目錄、并讓其被搜索是件很困難的事情,所以他們才轉向了人工智能。

    同時,News Feed做為短小而高頻的內容素材,恰好就是眾多開展深度學習活動的有效場所之一,因為每個Feed的背后,包含了人們希望看到哪些與他們相關的內容。

    而Facebook的圖片和視頻審核系統(tǒng)名為Rosetta,利用光學字符識別系統(tǒng)來處理圖片和視頻內容,每天可以實時地從超過10億張圖像和視頻幀中提取信息并識別多種語言背后的含義。

    另外,F(xiàn)acebook在上周剛剛開源了它們在圖像識別及視覺領域的最新模型:ResNext101。這是一個在Instagram的圖片標簽上預訓練,并在ImageNet上微調的模型。

    ImageNet是由知名人工智能專家李飛飛教授團隊于2009年發(fā)布,包含了超過兩萬類物體共計一千四百多萬張圖片,后來的很多計算機視覺任務模型都以此為基礎進行訓練。

    而ResNext101更上一層樓,利用了Instagram上的35億張圖片(比 ImageNet的1400萬多了200多倍)進行了預訓練,并以人們?yōu)閳D片添加的話題標簽(#hashtag)為類別,研發(fā)出來的有著超強特征提取能力的圖像識別模型。

    在這兩大系統(tǒng)的背后,其實是Facebook的人工智能研究院FAIR(Facebook Artificial Intelligence Research)在發(fā)揮功勞。

    比如其物體識別技術(Object recognition),以含有數(shù)十億參數(shù)和數(shù)百萬案例訓練的神經(jīng)網(wǎng)絡為基礎,給了挑戰(zhàn)最大的圖片和視頻審核有力的支持。

    另外它們也使用自我監(jiān)督學習(SSL)探索大量數(shù)據(jù),讓機器可以通過分析未標記的圖像、視頻或音頻來學習世界的抽象表達,這也是 FAIR 將 AI 能力規(guī)模化的努力之一。

    FAIR 還在研究用戶頭像的面部識別、上傳照片的環(huán)境識別等,它承擔 Facebook 所有 AI 相關的基礎研究、應用研究和技術開發(fā)。

    比如它推出的剛剛獲得了國際視覺模型挑戰(zhàn)賽冠軍的Mask R-CNN ,這個系統(tǒng)可以將計算機視覺世界的物體檢測與語義分割結合到了一起,不但可以檢測劣質視頻內容,甚至可以幫助視障人士自動替代文字。

    不過,你可千萬別以為世界上最大的社交網(wǎng)絡和內容平臺,光靠AI和審核系統(tǒng)就搞定了一切。截止目前,F(xiàn)acebook聘請了超過2萬人(是的你沒看錯),來輔助內容篩查,并配合監(jiān)測和刪除爭議內容。

    二、YouTube:版權審核系統(tǒng)的升級之路

    YouTube的內容審核系統(tǒng)名為Content ID,會監(jiān)測并直接刪除涉及色情、低俗和暴力等違規(guī)內容。不過,這個系統(tǒng)的誕生一開始僅僅是為了解決YouTube上內容的版權問題。

    早年間YouTube以草根內容起家,后來出現(xiàn)了大量的搬運號,主要以盜版電視臺的精品內容為主。雖然平臺的數(shù)據(jù)因此飆漲,但也因此陷入了曠日持久的官司里。

    2007 年至 2009 年,包括維亞康姆(美國第三大傳媒公司),Mediaset (意大利的傳媒集團)和英超聯(lián)賽(英國最大足球聯(lián)賽)等在內的組織對 YouTube 提起訴訟,聲稱它在用戶上傳侵權內容方面毫無作為。

    維亞康姆要求其作出10 億美元賠償金,他們聲稱已經(jīng)在 YouTube上 發(fā)現(xiàn)超過 15 萬條版權內容片段,累計播放量超過 15 億次。在耗時耗力的多年訴訟和公關戰(zhàn)之后,直到2014 年,雙方才最終協(xié)商解決了爭議,但具體條件并未公開。

    所以當年在被Google收購之后,YouTube從2007年開始就逐步投入巨資建立起Content ID版權系統(tǒng),慢慢幫助版權所有者能夠識別平臺上的侵權行為,并讓版權所有者在平臺上能夠獲直接獲得收入。截止 2018 年,谷歌為該技術研發(fā)共計投入超 1 億美元。

    后來,Content ID的內容監(jiān)測能力在不斷改進后,比如使用哈希算法標記有風險視頻,阻?它們被?次上傳,也獲得了顯著的成效。以2017年Q4為例,平臺刪除了800萬條“令人反感”的視頻,有670萬條都由監(jiān)測軟件自動標記。大約75%被標記的視頻,在被用戶觀看之前就被下架。

    人性化的是,YouTube 于 2014 年 9 ?在前端增加了受限模式(Restricted Mode),用以過濾?情暴?內容,但是?戶可以自己選擇開啟還是關閉。依據(jù)?戶舉報以及其它識別規(guī)則,受限模式可以直接為用戶過濾?部分不當內容。

    當然,YouTube的這些內容審核能力有賴于谷歌的深度學習技術Google Brain作為支持。Google Brian擁有一個收集用戶信息(如觀看歷史和用戶反饋)的神經(jīng)網(wǎng)絡, 以及一個用于對所顯示部分視頻進行排列的神經(jīng)網(wǎng)絡,通過引入機器學習工具,自動標記暴力、色情和低俗等極端視頻,并將違規(guī)內容報告給人工審核員進行驗證。

    和Facebook類似的是,就算有了Google多方面的技術支持(包括資金、人才、算法、云和服務器等),YouTube的AI標記、內容審核與識別技術也并不完美。2018的時候YouTube CEO蘇珊·沃西基承諾,未來會雇傭至少一萬名人工審核員,以補足算法的局限。

    因為更早之前英國政府和一些廣告公司發(fā)現(xiàn),自己的廣告被推薦到了緊挨著極端主義分子上傳的視頻內容的旁邊,造成了許多惡劣的影響,多方政府和廣告主們聯(lián)名宣布將因此撤下自己在YouTube賬號上的內容。

    不過,Google對 YouTube 的幫助也不會僅僅限于內容審核,Google Brain的技術已經(jīng)被應用在安卓系統(tǒng)的語音識別、Google+ 的圖片搜索、以及 YouTube 的智能推薦。

    所以,現(xiàn)在的YouTube早已從一個視頻UGC社區(qū),到慢慢成為擁有海量內容、搜索驅動的視頻綜合網(wǎng)站,到擁有了視頻推送能力的應用。如今,占據(jù)用戶在 YouTube 上觀看視頻總時長 70%的內容 ,是由推薦算法引擎驅動的。

    三、頭條:審核系統(tǒng)對外開放會帶來哪些變化?

    如今的今日頭條已經(jīng)擁有海量的用戶和多種形式的UGC內容,盡管體量上還頗有不如,但在內容審核方面遭遇的挑戰(zhàn)同臉書和Youtube已經(jīng)十分類似。

    頭條在這方面的一個創(chuàng)舉是,經(jīng)過多年的技術儲備和經(jīng)驗積累后,它開放了內部反低俗系統(tǒng)的一個簡化版本“靈犬反低俗助手”,希望普通創(chuàng)作者、社會公眾更了解和關注反低俗。截至2019年6月,靈犬反低俗助手的外部使用人次已經(jīng)超過了300萬。

    用戶只需要在靈犬的小程序內輸入一段文字或文章鏈接,靈犬就可以幫助其檢測內容健康指數(shù),返回一個鑒定結果。對于用戶輸入的內容(文字或者圖片),“靈犬”會先進行提取、分詞和語義識別,然后根據(jù)相關規(guī)則,輸出對應的分數(shù)、評級和結論。

    在文本識別領域,頭條同時應用了“Bert”和半監(jiān)督技術,訓練數(shù)據(jù)集包含920萬個樣本,準確率提升至91%。在圖片識別領域,“靈犬”采用深度學習作為解決方案,在數(shù)據(jù)、模型、計算力等方面均做了針對性優(yōu)化。

    最近新版的靈犬3.0發(fā)布,重點拓展了反低俗識別類型和模型能力,現(xiàn)已覆蓋圖片識別和文本識別,后續(xù),靈犬還將支持難度最大的語音識別和視頻識別。

    不過,今日頭條的人工智能實驗室王長虎也提到,AI暫時還是有缺陷的,今日頭條現(xiàn)在有將近萬余人的審核團隊在輔助AI的審核。

    比如對于低俗內容,它的定義本來就相對籠統(tǒng)難以精確,這項工作即使對人來說也不容易,交給機器做更難實現(xiàn)。

    比如世界名畫中常常出現(xiàn)裸體女子,如果完全交由機器判斷,機器通過識別畫中人物的皮膚裸露面積,就會認為這幅畫是色情低俗的;而某些拍攝芭蕾舞的圖片,以機器的視角來看,其實類似于裙底偷拍。

    Facebook 曾經(jīng)因為“裸露”,誤刪了一張著名的越戰(zhàn)新聞照片,內容是一位小女孩遭到汽油彈炸傷、渾身赤裸奔跑,事件發(fā)生后引起了美國新聞界的巨大爭議。

    但是,在當前內容創(chuàng)作和消費規(guī)模海量增長的趨勢下,如果依然純靠人工去解決所有問題,那么必然效率低的同時還無法滿足用戶需求。

    所以,AI+人工的內容審核方式在相當長的時間內都會是一種常規(guī)手段,這也是Facebook和YouTube等國際頭部內容平臺采用的處理方式。

    四、結語

    未來,隨著用戶和內容數(shù)量的繼續(xù)增長,內容審核的挑戰(zhàn)會越來越嚴峻,政策相關的監(jiān)管也會越來越嚴格,圖文的內容識別問題雖然逐步被克服,語音和視頻的內容理解更加任重道遠,人工和機器檢測都更為不易,尤其是當需要聯(lián)系具體的用戶使用場景和政治社會語境時,難度會成倍提高。

    比如鄧麗君的歌曲,早年被認為是低俗情色歌曲,如今早已被普遍接受并傳唱大街小巷;比如內衣和內衣模特出現(xiàn)在購物平臺上,會被默認為正常,但如果頻繁出現(xiàn)在新聞資訊平臺上,就可能被認為有低俗嫌疑;而正常的熱舞內容,提供給成年人看,符合常規(guī)標準,但如果開啟了青少年模式,這些內容就不應該出現(xiàn)。

    這就是由于時代背景、使用場景、用戶人群不同而導致審核標準可能大幅變動的案例。

    Facebook、YouTube都會遇到的內容審核難題,今日頭條是怎么解決的?

    海量數(shù)據(jù)的產(chǎn)生、不斷變化的標準,這都要求大公司在這方面的投入必須越來越多,而這本質上就成了一場資本豐厚的對手之間的軍備競賽。

    今年卡耐基梅隆大學(CMU)和 Google 合作研發(fā)的 XLNet 模型,在Bert模型的基礎上更進一步,在足足 512 塊 TPU 上訓練了兩天半時間。以 Google Cloud的計價標準,只是訓練一次XLNet 模型就需要人民幣一百六十多萬。

    若再考慮上整個模型研發(fā)過程中的不斷試錯和調參驗證等過程,XLNet的開銷簡直天文數(shù)字。未來中小團隊將難以競爭,這就是一個巨頭獨霸的競技場。

    不過好在,隨著人類進入社會的數(shù)字化程度越來越高,新一代的移動互聯(lián)網(wǎng)原住民們在享受技術帶來的便利的同時,也對技術可能的負面在耐受度和適應性上不斷提高。

    畢竟自工業(yè)革命之后起,就有無數(shù)人曾對技術會帶給社會的沖擊抱有極端負面和悲觀的預期,認為技術可能會加速崩壞我們數(shù)萬年來自然形成的人類社會結構,但是哪一次,人類社會不又是順利轉型成功、發(fā)展出與技術相匹配的職業(yè)和生活模式、并且越走越好了呢?

    贊(0)
    分享到: 更多 (0)
    網(wǎng)站地圖   滬ICP備18035694號-2    滬公網(wǎng)安備31011702889846號