24 日晚中國社群平台脈脈有網友爆料,字節跳動一位實習生刪除公司所有輕量級機器學習模型!
版主表示,lite模型就是公司內幾乎所有GB大小以下的機器學習模型,全部被刪除了,實習生直接刪除的是父目錄且加了skip trash(刪除檔時臨時禁用回收)操作,導致被刪除模型無法恢復。
當晚全公司通報,直接被列入P0事故等級(嚴重事故):
據討論,光是處理問題的人數就接近300人,遭殃業務有多少可想而知:
大家都在討論這位實習生的去留,搜尋一下,據說「只要不是主觀故意的」就不會被開除:
所以說要穩住別慌,問題不大。有網友表示這是實習生給大家出難題,不過沒有標準答案,考驗解題能力的時候到了。
還有網友表示實習生不能有許可權操作這麼重要的東西,這鍋80%應該判給管理者,實習生其實暴露問題,換個角度來看,實習生立功了。
字節跳動最出名的文化之一就是扁平化管理。 實習生與正式員工有同樣許可權,這也是字節跳動能與BAT等大廠競爭時保持靈活高效的祕訣,從這角度來說,說實習生立功也不能算錯。
而對手就許可權不一了。
到底刪了多少模型?
據字節跳動網友後來疑似截圖顯示,刪除的只是「Lagrange Lite全量Batch模型備份」,且顯示為「被誤刪」。
又有字節跳動的工程師網友表示刪除的都是離線數據,影響不大。該版主好像對此事非常熱中,全程回覆,表示「確實影響不大但是麻煩,重新訓練模型和延遲上線理論上都會對指標有負向只是不那麼明顯了。」
實習生「立大功」
2018年據英國《金融時報》報導,Google實習生無意犯個「小」錯誤,導致一則沒有意義的廣告投放到「大量」網頁和應用程式,持續約45分鐘,相關費用和清理成本達1,000萬美元,真可說是小手一抖,千萬元沒有。
字節跳動AI
字節跳動有什麼出名的機器學習產品?最早以今日頭條闖蕩江湖,今日頭條及後來抖音和火山等產品肯定用了不少機器學習推薦演算法,這先不提。抖音這款「有毒」的產品,也不時見到各種運用AI演算法做人臉變化的技術應用,比如最近較紅的重返3歲AI特效等。
據 AI科技評論,字節跳動還開發過名為LightSeq的序列推理引擎,最佳化以Transformer為基礎的序列特徵編碼器(Encoder)和自回歸序列解碼器(Decoder),早在2019年12月就開發,應用火山翻譯等眾多場景。
據瞭解,這應該是業界第一款完整支援Transformer、GPT等多種模型高速推理的開源引擎。LightSeq可用於機器翻譯、自動問答、智慧寫作、對話回覆生成等眾多文本場景,大大提高線上模型推理速度,改善使用者使用體驗。
相比其他開源序列推理引擎,LightSeq有幾點優勢:
- 高性能。
- 支援模型功能多。
- 簡單易用,無縫銜接Tensorflow、PyTorch等深度學習框架。
字節跳動AI Lab最近計劃要開源「新版訓練加速引擎」,可讓模型訓練加速3倍以上。
最後,據這次誤刪除事件來看,1GB模型其實不算大,大概只有幾億參數量級,反觀現AI動輒千億萬億起步的模型,1GB以下模型真的不算大,算不上是決定性模型。或許這次事件對字節跳動只是不痛不癢的小事,字節跳動高層或許根本不知道此事,畢竟這又不是「刪庫跑路」。
話雖然這麼說,但程式bug是玄學,有時哪怕某個小bug產生的影響往往難以預料,有時會牽一髮動全身,若碰巧也可能影響整個產品線。還希望各公司謹記「天乾物燥,小心火燭」。