大家都知道TikTok上有一個叫“for you”的功能,這個功能非常智能,會根據(jù)用戶的喜好做出推薦,深受大家喜愛,而這背后的的具體技術(shù)性其實就是人工智能。
TikTok推薦算法的構(gòu)架可分為3個構(gòu)成部分:大數(shù)據(jù)框架、人工神經(jīng)網(wǎng)絡(luò)以及分布式架構(gòu)。
1、大數(shù)據(jù)框架
TikTok的大部分數(shù)據(jù)信息來源于用戶的智能機,包含了系統(tǒng)軟件和安裝的應(yīng)用軟件等,TikTok特別關(guān)心用戶的主題活動日志,例如收看時間、滾動、關(guān)注點贊、共享和評價等。
日志數(shù)據(jù)信息根據(jù)Flume和scribe開展整理和歸納,他們根據(jù)管路傳送到Kafka隊列中。隨后Apache Storm與Apache Hadoop生態(tài)體系中的別的部件并行處理數(shù)據(jù)流分析。
Apache Hadoop生態(tài)體系是一個用以數(shù)據(jù)處理方法和儲存的分布式架構(gòu)。這包含第一代分布式系統(tǒng)數(shù)據(jù)處理系統(tǒng)MapReduce,它與批處理命令并行計算數(shù)據(jù)信息。
YARN是一個用以工作生產(chǎn)調(diào)度和群集資源優(yōu)化配置的架構(gòu),HDFS是一個分布式存儲,HBase是一個可拓展的分布式數(shù)據(jù)庫,適用大中型報表的非結(jié)構(gòu)化數(shù)據(jù)儲存。
Hive是給予數(shù)據(jù)統(tǒng)計和查找的數(shù)據(jù)庫管理基礎(chǔ)設(shè)施建設(shè)。
Zookeeper是一個性能卓越的融洽服務(wù)項目。伴隨著信息量的持續(xù)增長,即時數(shù)據(jù)處理方法架構(gòu)應(yīng)時而生。
ApacheSpark是第三代架構(gòu),有利于對互聯(lián)網(wǎng)大數(shù)據(jù)工作中附和開展幾近即時的分布式系統(tǒng)解決。Spark根據(jù)在存儲空間中解決,來提高MapReduce的特性。在過去的數(shù)年里,TikTok運用了第四代架構(gòu)Flink。