Maio 2020 08

Apache Kafka, a evolução do stream de dados: mãos na massa!

Rafael Coelho
AllowMe

Em nosso post anterior sobre o Apache Kafka falamos sobre sua utilidade, objetivos e funcionamento. Agora vamos botar a mão na massa e ver como colocamos uma aplicação básica no ar. Os códigos apresentados abaixo fazem parte de um teste completo que tem o seguinte formato:

Praticando as funcionalidades do Apache Kafka

Subindo e executando o Kafka: Para começar, recomendamos baixar o Kafka que está disponível no site em formato ZIP. Este arquivo contém todos os scripts para executar o Kafka localmente. Também existe uma versão famosa dockerizada do Kafka feita pelo Spotify.

Para subir, é necessário rodar uma instância do Zookeeper, que acompanha o Kafka. Então, deve-se criar os tópicos informando o nome, a quantidade de replicações e de partições que cada tópico terá. Para isso, basta executar os seguintes comandos:

// Subir o zookeeper com suas configs default

bin/zookeeper-server-start.sh config/zookeeper.properties

// Subir o zookeeper com suas configs default

bin/kafka-server-start.sh config/server.properties

// Criar os tópicos do kafka

bin/kafka-topics.sh --create --bootstrap-server localhost:9092 --replication-factor 3 --partitions 3 --topic kafka_topic

// List os topicos existentes no kafka

bin/kafka-topics.sh --list --bootstrap-server localhost:9092

O último comando exibe todos os tópicos criados no Kafka, se parar o Kafka e subir novamente, os tópicos continuarão no ar e ele continuará a distribuir as mensagens de onde parou. Então, para enviar ou receber uma mensagem, basta subir um consumer ou producer. Para fazer isso também são disponibilizados os seguintes scripts:

// Para produzir uma mensagem

bin/kafka-console-producer.sh --broker-list localhost:9092 --topic kafka_topic

// Para consumir uma mensagem

bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic kafka_topic --from-beginning

PS: O comando “–from-beginning” faz com que o consumidor inicie a leitura do tópico a partir do offset 0 ao subir.

Kafka Publish and Subscriber: Inicialmente precisamos importar o cliente que o próprio Apache Kafka fornece, usando o Maven (arquivo pom.xml):

<dependencies>

<dependency>

  <groupId>org.apache.kafka</groupId>

  <artifactId>kafka-clients</artifactId>

  <version>2.3.0</version>

  </dependency>

</dependencies>

O programa, em Java, abaixo, é de um producer que gera uma mensagem em Json:

package myapps;

import org.apache.kafka.clients.producer.KafkaProducer;

import org.apache.kafka.clients.producer.ProducerRecord;

import org.apache.kafka.common.serialization.LongSerializer;

import org.apache.kafka.common.serialization.StringSerializer;

import java.util.Arrays;

import java.util.List;

import java.util.Properties;

import java.util.Random;

public class Producer {

 private static String topico = "streams-all-messages";

 private static String mensage = "{\"type\":\"adr\",\"content\":{“...”}}";

 public static void main(String[] args) throws InterruptedException {

 Properties properties = new Properties();

 // IP e Porta do broker bootstrap

 properties.put("bootstrap.servers", "localhost:9092");

 // Id do producer que esta se connectando no broker

 properties.put("client.id", "cliente.1");

 // A chave será serializada para Long

 properties.put("key.serializer", LongSerializer.class.getName());

 // O valor será serializado para String

 properties.put("value.serializer", StringSerializer.class.getName());

 KafkaProducer<String,String> producer = new KafkaProducer<>(properties);

System.out.println("Send on topic " + topico + " the message: " + mensage);

ProducerRecord<String,String> record = new ProducerRecord<>(topico, mensage);

producer.send(record);

 }

}

Já o modelo abaixo é de um Consumer que recebe quatro mensagens diferentes (sendo duas com dados em string e duas com dados em long):

import org.apache.kafka.clients.consumer.KafkaConsumer;

import org.apache.kafka.common.serialization.LongDeserializer;

import org.apache.kafka.common.serialization.StringDeserializer;

import java.time.Duration;

import java.util.Arrays;

import java.util.List;

import java.util.Properties;

public class Consumer {

 private static List<String> topics_type_1 = 

Arrays.asList("streams-all-messages",

  "streams-only-addresses",

  "streams-updated-addresses");

 private static List<String> topics_type_2 = 

  Arrays.asList("streams-count-updated-addresses");

 

 public static void main(String[] args) {

 Properties properties = new Properties();

 // IP e Porta do broker bootstrap

 properties.setProperty("bootstrap.servers", "localhost:9092");

 // Id do grupo do tópico que esta se conectando no broker

 properties.setProperty("group.id", "group.1");

 // Id do producer que esta se conectando no broker

 properties.setProperty("client.id", "cliente.1");

 // Define se o commit das mensagens lidas vai ser automático

 properties.setProperty("enable.auto.commit", "true");

 // Tempo maximo de espera do commit até ser considerado falha

 properties.setProperty("auto.commit.interval.ms", "5000");

 // Pega o offset mais recente ao se conectar com o kafka

 properties.setProperty("auto.offset.reset", "earliest");

 // Máximo de mensagem que irá ser pega por vez (lote)

 properties.setProperty("max.poll.records", "500");

 // Tempo do heartbeat que o componente irá enviar ao kafka

 properties.setProperty("heartbeat.interval.ms", "1000");

 // Espera do heartbeat do componente até ser considerado falha

 properties.setProperty("session.timeout.ms", "10000");

 KafkaConsumer<String, String> consumerType1 = 

  getConsumer(properties, topics_type_1, StringDeserializer.class.getName());

 KafkaConsumer<String, Long> consumerType2 = 

  getConsumer(properties, topics_type_2, LongDeserializer.class.getName());

 try {

 while (true) {

 consumerType1.poll(Duration.ofSeconds(10)).forEach(record -> {

   System.out.println(record.topic()+": "+record.key()+" - "+record.value());

 });

 consumerType2.poll(Duration.ofSeconds(10)).forEach(record -> {

  System.out.println(record.topic()+": "+record.key()+" - "+record.value());

 });

 }

 } finally {

 consumerType1.close();

 consumerType2.close();

 }

 }

 private static <T> KafkaConsumer<String, T> getConsumer(Properties properties, 

  List<String> topics_type,

  String valueDeserializer) {

 // A chave será serializada para Long

 properties.setProperty("key.deserializer", StringDeserializer.class.getName());

 // O valor será serializado para String

 properties.setProperty("value.deserializer", valueDeserializer);

 KafkaConsumer<String, T> consumer = new KafkaConsumer<>(properties);

 consumer.subscribe(topics_type);

 return consumer;

 }

}

Kafka Streams: Tanto o Kafka Streams como Kafka Tables trabalham com o conceito de Topologia. O stream nada mais é que a execução das topologias informadas. Ao gerar um stream ou table, ele retorna a classe Topology, que será executada (da mesma forma que os predicados no próprio Stream do Java).

Inicialmente deve-se importar a biblioteca do Kafka Streams usando o Maven:

<dependencies>

<dependency>

  <groupId>org.apache.kafka</groupId>

  <artifactId>kafka-streams</artifactId>

  <version>2.3.0</version>

  </dependency>

</dependencies>

Abaixo, mais um modelo de programa em Java, que é um Stream que “ouve” o tópico “streams-all-messages” e filtra a mensagem apenas quando ela for do tipo “Adr” (Address):

import com.google.gson.Gson;

import org.apache.kafka.common.serialization.Serdes;

import org.apache.kafka.streams.*;

import java.util.Properties;

import java.util.concurrent.CountDownLatch;

import static java.util.Objects.nonNull;

public class FilterAddresses {

 public static void main(String[] args) throws Exception {

 FilterAddresses filterAddresses = new FilterAddresses();

 filterAddresses.run();

 }

 private void run() {

 Properties properties = getProperties();

 Topology topology = getTopology();

 KafkaStreams streams = new KafkaStreams(topology, properties);

 CountDownLatch latch = new CountDownLatch(1);

 shutdown(streams, latch);

 try {

 streams.start();

 latch.await();

 } catch (Throwable e) {

 System.exit(1);

 }

 System.exit(0);

 }

 private Topology getTopology() {

 StreamsBuilder builder = new StreamsBuilder();

 builder.<String, String>stream("streams-all-messages")

 .map((key, value) -> KeyValue.pair(key, parseAsMessage(value)))

 .filter((key, value) -> nonNull(value) && value.isAddress())

 .map((key,value) -> KeyValue.pair(key,parseAsString(value.getContent())))

 .to("streams-only-addresses");

 return builder.build();

 }

 private Message parseAsMessage(String value) {

 try {

 return (new Gson()).fromJson(value, Message.class);

 } catch (Exception ex) {

 System.out.println(ex.getMessage());

 return null;

 }

 }

 private String parseAsString(UpdateAddresses.Message value) {

 try {

 return (new Gson()).toJson(value);

 } catch (Exception ex) {

 System.out.println(ex.getMessage());

 return null;

 }

 }

 private Properties getProperties() {

  Properties properties = new Properties();

  properties.put(StreamsConfig.APPLICATION_ID_CONFIG, "streams-linesplit");

  properties.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");

properties.put(StreamsConfig.DEFAULT_KEY_SERDE_CLASS_CONFIG,

  Serdes.String().getClass());

  properties.put(StreamsConfig.DEFAULT_VALUE_SERDE_CLASS_CONFIG, 

  Serdes.String().getClass());

  properties.setProperty("group.id", "group.2");

  return properties;

 }

 private void shutdown(KafkaStreams streams, CountDownLatch latch) {

 Runtime.getRuntime().addShutdownHook(new Thread("streams-shutdown-hook") {

 @Override

 public void run() {

 streams.close();

 latch.countDown();

 }

 });

 }

 class Message {

 String type;

 UpdateAddresses.Message content;

 public boolean isAddress() {

 return MsgType.ADDRESS.getValue().equals(type);

 }

 public UpdateAddresses.Message getContent() {

 return content;

 }

 }

 enum MsgType {

 ADDRESS("adr");

 String type;

 MsgType(String type) {

 this.type = type;

 }

 String getValue() {

 return type;

 }

 }

}

Kafka Tables: O Kafka tables faz parte do Streams Framework, assim, basta importar o mesmo framework, conforme foi feito anteriormente via Maven.

O exemplo a seguir é um stream que processa a mensagem sumarizando e separando os endereços que foram filtrados no stream acima, tornando eles uma Kafka Table:

import com.google.gson.Gson;

import org.apache.kafka.clients.consumer.ConsumerConfig;

import org.apache.kafka.common.serialization.Serdes;

import org.apache.kafka.streams.*;

import org.apache.kafka.streams.kstream.KGroupedStream;

import org.apache.kafka.streams.kstream.KStream;

import org.apache.kafka.streams.kstream.KTable;

import org.apache.kafka.streams.kstream.Produced;

import java.util.Properties;

import java.util.UUID;

import java.util.concurrent.CountDownLatch;

import static java.util.Objects.nonNull;

public class UpdateAddresses {

 public static void main(String[] args) throws Exception {

 UpdateAddresses updateAddresses = new UpdateAddresses();

 updateAddresses.run();

 }

 private void run() {

 Properties properties = getProperties();

 Topology topology = getTopology();

 KafkaStreams streams = new KafkaStreams(topology, properties);

 CountDownLatch latch = new CountDownLatch(1);

 shutdown(streams, latch);

 try {

 streams.start();

 latch.await();

 } catch (final Throwable e) {

 System.out.println(e.getMessage());

 }

 }

 private Topology getTopology() {

 StreamsBuilder builder = new StreamsBuilder();

 KStream<String, String> stream = builder.stream("streams-only-addresses");

 KGroupedStream<String, String> result = stream

 .map((key, value) -> KeyValue.pair(key,parseAsMessage(value)))

 .filter((key, value) -> nonNull(value))

 .selectKey((keu, value) -> value.getPerson())

 .map((key, value) -> KeyValue.pair(key,parseAsString(value)))

 .groupByKey();

 KTable<String, String> address = result.reduce((key, value) -> value);

 KTable<String, Long> changes = result.count();

]  address.toStream().to("streams-updated-addresses", 

  Produced.with(Serdes.String(), Serdes.String()));

 changes.toStream().to("streams-count-updated-addresses", 

  Produced.with(Serdes.String(), Serdes.Long()));

 return builder.build();

 }

 private Message parseAsMessage(String value) {

 try {

 return (new Gson()).fromJson(value, Message.class);

 } catch (Exception ex) {

 System.out.println("parseAsMessage: " + ex.getMessage());

 System.out.println(ex.getStackTrace());

 return null;

 }

 }

 private String parseAsString(Message value) {

  try {

 return (new Gson()).toJson(value);

 } catch (Exception ex) {

 System.out.println("parseAsString: " + ex.getMessage());

 System.out.println(ex.getStackTrace());

 return null;

 }

 }

 private Properties getProperties() {

 Properties properties = new Properties();

 properties.put(StreamsConfig.APPLICATION_ID_CONFIG, "streams-wordcount2");

 properties.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");

 properties.put(StreamsConfig.CACHE_MAX_BYTES_BUFFERING_CONFIG, 0);

  properties.put(StreamsConfig.DEFAULT_KEY_SERDE_CLASS_CONFIG, 

  Serdes.String().getClass().getName()); 

  properties.put(StreamsConfig.DEFAULT_VALUE_SERDE_CLASS_CONFIG, 

  Serdes.String().getClass().getName());

 properties.put(ConsumerConfig.AUTO_OFFSET_RESET_CONFIG, "earliest");

 properties.setProperty("group.id", "group.2");

 return properties;

 }

 private static void shutdown(KafkaStreams streams, CountDownLatch latch) {

 Runtime.getRuntime().addShutdownHook(new Thread("streams-wordcount-shutdown-hook") {

 @Override

 public void run() {

 streams.close();

 latch.countDown();

 }

 });

 }

 class Message {

 String person;

 String street;

 Integer number;

 String neighborhood;

 String city;

 String state;

 String country;

 String zipcode;

 String getPerson() { return person; }

 }

}

Conclusões: O Apache Kafka é uma ferramenta incrível, e além de extremamente performática, é segura e resiliente. São várias as empresas que utilizam o Kafka, e no geral, são empresas que necessitam de extrema performance em suas aplicações, como Netflix, Spotify e no próprio AllowMe, aqui na Tempest.

Apache Kafka, a evolução do stream de dados: mãos na massa!

Relacionados Related

Nova funcionalidade do AllowMe permite mensagens personalizadas no MFA

AllowMe evita mais de R$ 517 milhões em fraudes no primeiro semestre de 2021

Como AllowMe atua após as novas atualizações do iOS e Android?

Nova funcionalidade do AllowMe permite mensagens personalizadas no MFA

AllowMe evita mais de R$ 517 milhões em fraudes no primeiro semestre de 2021

Como AllowMe atua após as novas atualizações do iOS e Android?