Kafka

Kafka^[1]
開發者	Apache軟件基金會，領英
首次釋出	2011年1月，13年前
目前版本	3.0.0（2021年9月21日，3年前）
原始碼庫	github.com/apache/kafka;
程式語言	Scala、Java
作業系統	跨平台
類型	串流處理, 訊息中介軟體（英語：message broker）
特許條款	Apache特許條款 2.0
網站	kafka.apache.org

Kafka是由Apache軟件基金會開發的一個開源流處理平台，由Scala和Java編寫。該專案的目標是為處理即時數據提供一個統一、高吞吐、低延遲的平台。其持久化層本質上是一個「按照分散式事務紀錄檔架構的大規模釋出/訂閱訊息佇列」，^[3]這使它作為企業級基礎設施來處理串流數據非常有價值。此外，Kafka可以通過Kafka Connect連接到外部系統（用於數據輸入/輸出），並提供了Kafka Streams——一個Java串流處理庫。

該設計受事務紀錄檔（英語：Transaction log）的影響較大。^[4]

Kafka的歷史

Kafka最初是由領英開發，並隨後於2011年初開源，並於2012年10月23日由Apache Incubator孵化出站。2014年11月，幾個曾在領英為Kafka工作的工程師，建立了名為Confluent的新公司，^[5]，並着眼於Kafka。根據2014年Quora的貼文，Jay Kreps似乎已經將它以作家弗朗茨·卡夫卡命名。Kreps選擇將該系統以一個作家命名是因為，它是「一個用於最佳化寫作的系統」，而且他很喜歡卡夫卡的作品。^[6]

Kafka的架構

Kafka儲存的訊息來自任意多被稱為「生產者」（Producer）的行程。數據從而可以被分配到不同的「分區」（Partition）、不同的「Topic」下。在一個分區內，這些訊息被索引並連同時間戳儲存在一起。其它被稱為「消費者」（Consumer）的行程可以從分區查詢訊息。Kafka執行在一個由一台或多台伺服器組成的叢集上，並且分區可以跨叢集結點分佈。

Kafka高效地處理即時串流數據，可以實現與Storm、HBase和Spark的整合。作為群集部署到多台伺服器上，Kafka處理它所有的釋出和訂閱訊息系統使用了四個API，即生產者API、消費者API、Stream API和Connector API。它能夠傳遞大規模串流訊息，內建容錯功能，已經取代了一些傳統訊息系統，如JMS、AMQP等。

Kafka架構的主要術語包括Topic、Record和Broker。Topic由Record組成，Record持有不同的資訊，而Broker則負責複製訊息。Kafka有四個主要API：

生產者API：支援應用程式釋出Record流。
消費者API：支援應用程式訂閱Topic和處理Record流。
Stream API：將輸入流轉換為輸出流，並產生結果。
Connector API：執行可重用的生產者和消費者API，可將Topic連結到現有應用程式。

設計目標

Kafka的效能

由於其廣泛整合到企業級基礎設施中，監測Kafka在規模執行中的效能成為一個日益重要的問題。監測端到端效能，要求跟蹤所有指標，包括Broker、消費者和生產者。除此之外還要監測ZooKeeper，Kafka用它來協調各個消費者。^[7]^[8]目前有一些監測平台可以追蹤Kafka的效能，有開源的，如領英的Burrow；也有付費的，如Datadog。除了這些平台之外，收集Kafka的數據也可以使用工具來進行，這些工具一般需要Java，包括JConsole。^[9]

Consumer Group

Kafka檔案格式

00000000000000000000.index 00000000000000000000.log 00000000000000000000.timeindex 00000000000000782248.snapshot leader-epoch-checkpoint

使用Kafka的企業

下面的列表是曾經或正在使用Kafka的知名企業：

參見

Apache ActiveMQ
Apache Flink
Qpid（英語：Apache Qpid）
Samza（英語：Apache Samza）
Apache Spark
數據釋出服務（英語：Data Distribution Service）
企業整合模式（英語：Enterprise Integration Patterns）
企業訊息系統（英語：Enterprise Messaging System）
事件串流處理（英語：Event stream processing）
事件驅動SOA（英語：Event-driven SOA）
訊息導向中介層（英語：Message-oriented middleware）
面向服務的架構
StormMQ（英語：StormMQ）

參考資料

^ GitHub仓库镜像. [2014-04-09]. （原始內容存檔於2020-08-16）.
^ Open-sourcing Kafka, LinkedIn's distributed message queue [開源的Kafka，LinkedIn的分散式訊息佇列]. [2016-10-27]. （原始內容存檔於2021-01-11）.
^ Monitoring Kafka performance metrics [監控Kafka效能數據]. Datadog官方網誌. [2016-05-23]. （原始內容存檔於2020-11-08）（英語）.
^ The Log: What every software engineer should know about real-time data's unifying abstraction [The Log: What every software engineer should know about real-time data's unifying abstraction]. 領英官方網誌. [2014-05-05]. （原始內容存檔於2014-03-17）（英語）.
^ Primack, Dan. LinkedIn engineers spin out to launch 'Kafka' startup Confluent [領英工程師推遲釋出Kafka啟動Confluent]. [2015-02-10]. （原始內容存檔於2020-10-22）（英語）.
^ What is the relation between Kafka, the writer, and Apache Kafka, the distributed messaging system? [作家卡夫卡和Apache Kafka那個分散式訊息系統之間有什麼關係？]. [2017-06-12] （英語）.
^ Monitoring Kafka performance metrics [監測Kafka效能指標]. 2016-04-06 [2016-10-05]. （原始內容存檔於2020-11-08）（英語）.
^ Mouzakitis, Evan. Monitoring Kafka performance metrics [監測Kafka效能指標]. 2016-04-06 [2016-10-05]. （原始內容存檔於2020-11-08）（英語）.
^ Collecting Kafka performance metrics - Datadog [收集Kafka效能指標－Datadog]. 2016-04-06 [2016-10-05]. （原始內容存檔於2020-11-27）（英語）.
^ More data, more data [更多數據，更多數據]. [2017-12-22]. （原始內容存檔於2018-10-21）（英語）.
^ Kafka Usage in Ebay Communications Delivery Pipeline [Kafka在Ebay通訊傳遞管道中的用途]. [2017-12-22]. （原始內容存檔於2019-02-16）（英語）.
^ Doyung Yoon. S2Graph : A Large-Scale Graph Database with HBase [S2Graph：基於HBase的大規模圖形資料庫]. [2017-12-22]. （原始內容存檔於2016-03-09）（英語）.
^ Cheolsoo Park and Ashwin Shankar. Netflix: Integrating Spark at Petabyte Scale [Netflix：在Pb級規模整合Spark]. [2017-12-22]. （原始內容存檔於2016-03-04）（英語）.
^ Shibi Sudhakaran of PayPal. PayPal: Creating a Central Data Backbone: Couchbase Server to Kafka to Hadoop and Back (talk at Couchbase Connect 2015) [PayPal：建立中心數據骨幹：Couchbase Server到Kafka到Hadoop和Back（在Couchbase Connect 2015上的講話）]. Couchbase. [2016-02-03]. （原始內容存檔於2016-09-17）（英語）.
^ Josh Baer. How Apache Drives Spotify's Music Recommendations [Apache如何驅動Spotify的音樂推薦]. [2017-12-22]. （原始內容存檔於2016-03-09）（英語）.
^ Streaming Messages from Kafka into Redshift in near Real-Time [從Kafka到Redshift的串流訊息接近於即時]. Yelp. [2017-07-19]. （原始內容存檔於2017-06-03）（英語）.
^ Boerge Svingen. Publishing with Apache Kafka at The New York Times [在紐約時報使用Kafka進行出版]. [2017-09-19]. （原始內容存檔於2017-09-17）（英語）.
^ OpenSOC: An Open Commitment to Security [OpenSOC：一份公開的安全承諾]. 思科網誌. [2016-02-03]. （原始內容存檔於2016-03-09）（英語）.
^ Apache Kafka for Item Setup [Kafka用於專案設置]. medium.com. [2017-06-12]. （原始內容存檔於2019-05-03）（英語）.
^ Stream Processing in Uber [優步的串流處理]. InfoQ. [2015-12-06]. （原始內容存檔於2015-12-05）（英語）.

外部連結

Apache Kafka網站（頁面存檔備份，存於互聯網檔案館）（英文）
專案設計討論（頁面存檔備份，存於互聯網檔案館）（英文）
Github鏡像（頁面存檔備份，存於互聯網檔案館）
Morten Kjetland對Apache Kafka的介紹（頁面存檔備份，存於互聯網檔案館）（英文）
Quora上與RabbitMQ的對比（英文）
Kafka開發者郵寄清單中與RabbitMQ的對比（頁面存檔備份，存於互聯網檔案館）（英文）
Stackoverflow上與RabbitMQ和ZeroMQ的對比（頁面存檔備份，存於互聯網檔案館）（英文）
Apache Kafka中的叢集內部響應（頁面存檔備份，存於互聯網檔案館）（英文）
Kafka用戶郵寄清單討論（英文）

[1] GitHub仓库镜像. [2014-04-09]. （原始內容存檔於2020-08-16）.

[2] Open-sourcing Kafka, LinkedIn's distributed message queue [開源的Kafka，LinkedIn的分散式訊息佇列]. [2016-10-27]. （原始內容存檔於2021-01-11）.

[3] Monitoring Kafka performance metrics [監控Kafka效能數據]. Datadog官方網誌. [2016-05-23]. （原始內容存檔於2020-11-08）（英語）.

[4] The Log: What every software engineer should know about real-time data's unifying abstraction [The Log: What every software engineer should know about real-time data's unifying abstraction]. 領英官方網誌. [2014-05-05]. （原始內容存檔於2014-03-17）（英語）.

[5] Primack, Dan. LinkedIn engineers spin out to launch 'Kafka' startup Confluent [領英工程師推遲釋出Kafka啟動Confluent]. [2015-02-10]. （原始內容存檔於2020-10-22）（英語）.

[6] What is the relation between Kafka, the writer, and Apache Kafka, the distributed messaging system? [作家卡夫卡和Apache Kafka那個分散式訊息系統之間有什麼關係？]. [2017-06-12] （英語）.

[7] Monitoring Kafka performance metrics [監測Kafka效能指標]. 2016-04-06 [2016-10-05]. （原始內容存檔於2020-11-08）（英語）.

[8] Mouzakitis, Evan. Monitoring Kafka performance metrics [監測Kafka效能指標]. 2016-04-06 [2016-10-05]. （原始內容存檔於2020-11-08）（英語）.

[9] Collecting Kafka performance metrics - Datadog [收集Kafka效能指標－Datadog]. 2016-04-06 [2016-10-05]. （原始內容存檔於2020-11-27）（英語）.

[10] More data, more data [更多數據，更多數據]. [2017-12-22]. （原始內容存檔於2018-10-21）（英語）.

[11] Kafka Usage in Ebay Communications Delivery Pipeline [Kafka在Ebay通訊傳遞管道中的用途]. [2017-12-22]. （原始內容存檔於2019-02-16）（英語）.

[12] Doyung Yoon. S2Graph : A Large-Scale Graph Database with HBase [S2Graph：基於HBase的大規模圖形資料庫]. [2017-12-22]. （原始內容存檔於2016-03-09）（英語）.

[13] Cheolsoo Park and Ashwin Shankar. Netflix: Integrating Spark at Petabyte Scale [Netflix：在Pb級規模整合Spark]. [2017-12-22]. （原始內容存檔於2016-03-04）（英語）.

[14] Shibi Sudhakaran of PayPal. PayPal: Creating a Central Data Backbone: Couchbase Server to Kafka to Hadoop and Back (talk at Couchbase Connect 2015) [PayPal：建立中心數據骨幹：Couchbase Server到Kafka到Hadoop和Back（在Couchbase Connect 2015上的講話）]. Couchbase. [2016-02-03]. （原始內容存檔於2016-09-17）（英語）.

[15] Josh Baer. How Apache Drives Spotify's Music Recommendations [Apache如何驅動Spotify的音樂推薦]. [2017-12-22]. （原始內容存檔於2016-03-09）（英語）.

[16] Streaming Messages from Kafka into Redshift in near Real-Time [從Kafka到Redshift的串流訊息接近於即時]. Yelp. [2017-07-19]. （原始內容存檔於2017-06-03）（英語）.

[17] Boerge Svingen. Publishing with Apache Kafka at The New York Times [在紐約時報使用Kafka進行出版]. [2017-09-19]. （原始內容存檔於2017-09-17）（英語）.

[18] OpenSOC: An Open Commitment to Security [OpenSOC：一份公開的安全承諾]. 思科網誌. [2016-02-03]. （原始內容存檔於2016-03-09）（英語）.

[19] Apache Kafka for Item Setup [Kafka用於專案設置]. medium.com. [2017-06-12]. （原始內容存檔於2019-05-03）（英語）.

[20] Stream Processing in Uber [優步的串流處理]. InfoQ. [2015-12-06]. （原始內容存檔於2015-12-05）（英語）.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

閱論編 Apache軟件基金會
頂級專案	Abdera（英語：Apache Abdera） Accumulo（英語：Apache Accumulo） ActiveMQ Ambari（英語：Apache Ambari） Ant Aries（英語：Apache Aries） Apache Arrow Apache HTTP Server APR Avro Axis Axis2 Beam Bloodhound（英語：Apache Bloodhound） Apache Brooklyn（英語：Apache Brooklyn） Buildr（英語：Apache Buildr） Calcite（英語：Apache Calcite） Camel Cassandra Cayenne（英語：Apache Cayenne） Chemistry（英語：Apache Chemistry） CloudStack（英語：Apache CloudStack） Cocoon（英語：Apache Cocoon） Continuum（英語：Apache Continuum） Cordova CouchDB cTAKES（英語：cTAKES） CXF Deltacloud（英語：Deltacloud） Derby Directory（英語：Apache Directory Server） Drill（英語：Apache Drill） Empire-db（英語：Apache Empire-db） ECharts Felix（英語：Apache Felix） Flex Flink Flume（英語：Apache Flume） Forrest（英語：Apache Forrest） Geronimo（英語：Apache Geronimo） Gora（英語：Apache Gora） Gump（英語：Apache Gump） Hadoop Hama（英語：Apache Hama） HBase Hive Jackrabbit（英語：Apache Jackrabbit） James（英語：Apache James） JMeter（英語：Apache JMeter） Kafka Karaf（英語：Apache Karaf） Kylin（英語：Apache Kylin） Lucene Lenya（英語：Apache Lenya） Mahout（英語：Apache Mahout） Marmotta（英語：Apache Marmotta） Maven MINA（英語：Apache MINA） mod_perl（英語：mod_perl） MyFaces（英語：Apache MyFaces） Nutch（英語：Apache Nutch） ODE（英語：Apache ODE） OFBiz（英語：Apache OFBiz） Oozie（英語：Oozie） OpenEJB（英語：Apache OpenEJB） OpenJPA（英語：Apache OpenJPA） OpenNLP OpenOffice PDFBox（英語：Apache PDFBox） Phoenix（英語：Apache Phoenix） POI Pig（英語：Pig (programming tool)） Pivot（英語：Apache Pivot） Qpid（英語：Apache Qpid） River（英語：Apache River） Roller（英語：Apache Roller） RocketMQ Samza（英語：Apache Samza） ServiceMix（英語：Apache ServiceMix） Shindig（英語：Apache Shindig） Shiro Sling（英語：Apache Sling） Spark Stanbol（英語：Apache Stanbol） Storm SpamAssassin Sqoop Apache C++標準庫（英語：stdcxx） Struts Struts 2 Subversion Tapestry Thrift Tiles（英語：Apache Tiles） Tika（英語：Apache Tika） Tomcat Trafficserver Turbine Tuscany UIMA Velocity Wave Wicket Wink（英語：Apache Wink） Xalan（英語：Xalan） Xerces（英語：Xerces） XMLBeans（英語：XMLBeans） ZooKeeper
Commons專案	Apache Commons Logging（英語：Apache Commons Logging） BCEL（英語：Byte Code Engineering Library） BSF（英語：Bean Scripting Framework） Commons Daemon（英語：Commons Daemon） Jelly（英語：Apache Jelly）
Lucene專案	Lucene Java Lucene.Net（英語：Lucene.Net） Nutch（英語：Nutch） Solr
Hadoop專案	HBase HDFS
其他專案	Batik Chainsaw（英語：Chainsaw (log file viewer)） FOP Log4j XAP（英語：Apache XAP） Log4Net Ivy（英語：Apache Ivy）
孵化器專案	XAP（英語：Apache XAP） Samza（英語：Apache Samza） Storm
Apache Attic	AxKit（英語：AxKit） Beehive（英語：Apache Beehive） Click（英語：Apache Click） Apache BlueSky（英語：BlueSky Open Platform） Cactus（英語：Jakarta Cactus） Jakarta Excalibur（英語：Apache Excalibur） Harmony HiveMind（英語：Apache HiveMind） Lenya（英語：Apache Lenya） Slide（英語：Jakarta Slide） Shale（英語：Apache Shale） Shindig（英語：Apache Shindig） stdcxx（英語：Apache C++ Standard Library） iBATIS XMLBeans（英語：XMLBeans）
特許條款標準	Apache特許條款
分類維基共用