Apache Kafka, a evolução do stream de dados: mãos na massa!

Redação AllowMe

Siga no Linkedin

Em nosso post anterior sobre o Apache Kafka falamos sobre sua utilidade, objetivos e funcionamento. Agora vamos botar a mão na massa e ver como colocamos uma aplicação básica no ar. Os códigos apresentados abaixo fazem parte de um teste completo que tem o seguinte formato:

Praticando as funcionalidades do Apache Kafka

Subindo e executando o Kafka

Para começar, recomendamos baixar o Kafka que está disponível no site em formato ZIP. Este arquivo contém todos os scripts para executar o Kafka localmente. Também existe uma versão famosa dockerizada do Kafka feita pelo Spotify.

Para subir, é necessário rodar uma instância do Zookeeper, que acompanha o Kafka. Então, deve-se criar os tópicos informando o nome, a quantidade de replicações e de partições que cada tópico terá. Para isso, basta executar os seguintes comandos:

// Subir o zookeeper com suas configs default

bin/zookeeper-server-start.sh config/zookeeper.properties

// Subir o zookeeper com suas configs default

bin/kafka-server-start.sh config/server.properties

// Criar os tópicos do kafka

bin/kafka-topics.sh --create --bootstrap-server localhost:9092 --replication-factor 3 --partitions 3 --topic kafka_topic

// List os topicos existentes no kafka

bin/kafka-topics.sh --list --bootstrap-server localhost:9092

O último comando exibe todos os tópicos criados no Kafka, se parar o Kafka e subir novamente, os tópicos continuarão no ar e ele continuará a distribuir as mensagens de onde parou. Então, para enviar ou receber uma mensagem, basta subir um consumer ou producer. Para fazer isso também são disponibilizados os seguintes scripts:

// Para produzir uma mensagem

bin/kafka-console-producer.sh --broker-list localhost:9092 --topic kafka_topic

// Para consumir uma mensagem

bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic kafka_topic --from-beginning

PS: O comando “–from-beginning” faz com que o consumidor inicie a leitura do tópico a partir do offset 0 ao subir.

Kafka Publish and Subscriber

Inicialmente precisamos importar o cliente que o próprio Apache Kafka fornece, usando o Maven (arquivo pom.xml):

<dependencies>

<dependency>

  <groupId>org.apache.kafka</groupId>

   <artifactId>kafka-clients</artifactId>

   <version>2.3.0</version>

   </dependency>

</dependencies>

O programa, em Java, abaixo, é de um producer que gera uma mensagem em Json:

package myapps;

import org.apache.kafka.clients.producer.KafkaProducer;

import org.apache.kafka.clients.producer.ProducerRecord;

import org.apache.kafka.common.serialization.LongSerializer;

import org.apache.kafka.common.serialization.StringSerializer;

import java.util.Arrays;

import java.util.List;

import java.util.Properties;

import java.util.Random;

public class Producer {

    private static String topico = "streams-all-messages";

    private static String mensage = "{\"type\":\"adr\",\"content\":{“...”}}";

    public static void main(String[] args) throws InterruptedException {

        Properties properties = new Properties();

        // IP e Porta do broker bootstrap

        properties.put("bootstrap.servers", "localhost:9092");

        // Id do producer que esta se connectando no broker

        properties.put("client.id", "cliente.1");

        // A chave será serializada para Long

 properties.put("key.serializer", LongSerializer.class.getName());

        // O valor será serializado para String

        properties.put("value.serializer", StringSerializer.class.getName());

        KafkaProducer<String,String> producer = new KafkaProducer<>(properties);

System.out.println("Send on topic " + topico + " the message: " + mensage);

ProducerRecord<String,String> record = new ProducerRecord<>(topico, mensage);

producer.send(record);

    }

}

Já o modelo abaixo é de um Consumer que recebe quatro mensagens diferentes (sendo duas com dados em string e duas com dados em long):

import org.apache.kafka.clients.consumer.KafkaConsumer;

import org.apache.kafka.common.serialization.LongDeserializer;

import org.apache.kafka.common.serialization.StringDeserializer;

import java.time.Duration;

import java.util.Arrays;

import java.util.List;

import java.util.Properties;

public class Consumer {

    private static List<String> topics_type_1 = 

Arrays.asList("streams-all-messages",

  "streams-only-addresses",

  "streams-updated-addresses");

    private static List<String> topics_type_2 = 

     Arrays.asList("streams-count-updated-addresses");

 

    public static void main(String[] args) {

        Properties properties = new Properties();

        // IP e Porta do broker bootstrap

        properties.setProperty("bootstrap.servers", "localhost:9092");

        // Id do grupo do tópico que esta se conectando no broker

        properties.setProperty("group.id", "group.1");

        // Id do producer que esta se conectando no broker

        properties.setProperty("client.id", "cliente.1");

        // Define se o commit das mensagens lidas vai ser automático

        properties.setProperty("enable.auto.commit", "true");

        // Tempo maximo de espera do commit até ser considerado falha

        properties.setProperty("auto.commit.interval.ms", "5000");

        // Pega o offset mais recente ao se conectar com o kafka

        properties.setProperty("auto.offset.reset", "earliest");

        // Máximo de mensagem que irá ser pega por vez (lote)

        properties.setProperty("max.poll.records", "500");

        // Tempo do heartbeat que o componente irá enviar ao kafka

        properties.setProperty("heartbeat.interval.ms", "1000");

        // Espera do heartbeat do componente até ser considerado falha

        properties.setProperty("session.timeout.ms", "10000");

        KafkaConsumer<String, String> consumerType1 = 

  getConsumer(properties, topics_type_1, StringDeserializer.class.getName());

        KafkaConsumer<String, Long> consumerType2 = 

  getConsumer(properties, topics_type_2, LongDeserializer.class.getName());

        try {

            while (true) {

               consumerType1.poll(Duration.ofSeconds(10)).forEach(record -> {

           System.out.println(record.topic()+": "+record.key()+" - "+record.value());

               });

               consumerType2.poll(Duration.ofSeconds(10)).forEach(record -> {

            System.out.println(record.topic()+": "+record.key()+" - "+record.value());

                });

            }

        } finally {

            consumerType1.close();

            consumerType2.close();

        }

    }

    private static <T> KafkaConsumer<String, T> getConsumer(Properties properties, 

  List<String> topics_type,

  String valueDeserializer) {

        // A chave será serializada para Long

        properties.setProperty("key.deserializer", StringDeserializer.class.getName());

        // O valor será serializado para String

        properties.setProperty("value.deserializer", valueDeserializer);

        KafkaConsumer<String, T> consumer = new KafkaConsumer<>(properties);

        consumer.subscribe(topics_type);

        return consumer;

    }

}

Kafka Streams

Tanto o Kafka Streams como Kafka Tables trabalham com o conceito de Topologia. O stream nada mais é que a execução das topologias informadas. Ao gerar um stream ou table, ele retorna a classe Topology, que será executada (da mesma forma que os predicados no próprio Stream do Java).

Inicialmente deve-se importar a biblioteca do Kafka Streams usando o Maven:

<dependencies>

<dependency>

  <groupId>org.apache.kafka</groupId>

   <artifactId>kafka-streams</artifactId>

   <version>2.3.0</version>

   </dependency>

</dependencies>

Abaixo, mais um modelo de programa em Java, que é um Stream que “ouve” o tópico “streams-all-messages” e filtra a mensagem apenas quando ela for do tipo “Adr” (Address):

import com.google.gson.Gson;

import org.apache.kafka.common.serialization.Serdes;

import org.apache.kafka.streams.*;

import java.util.Properties;

import java.util.concurrent.CountDownLatch;

import static java.util.Objects.nonNull;

public class FilterAddresses {

    public static void main(String[] args) throws Exception {

        FilterAddresses filterAddresses = new FilterAddresses();

        filterAddresses.run();

    }

    private void run() {

        Properties properties = getProperties();

        Topology topology = getTopology();

        KafkaStreams streams = new KafkaStreams(topology, properties);

        CountDownLatch latch = new CountDownLatch(1);

        shutdown(streams, latch);

        try {

            streams.start();

            latch.await();

        } catch (Throwable e) {

            System.exit(1);

        }

        System.exit(0);

    }

    private Topology getTopology() {

        StreamsBuilder builder = new StreamsBuilder();

        builder.<String, String>stream("streams-all-messages")

                .map((key, value) -> KeyValue.pair(key, parseAsMessage(value)))

                .filter((key, value) -> nonNull(value) && value.isAddress())

                .map((key,value) -> KeyValue.pair(key,parseAsString(value.getContent())))

                .to("streams-only-addresses");

        return builder.build();

    }

    private Message parseAsMessage(String value) {

        try {

            return (new Gson()).fromJson(value, Message.class);

        } catch (Exception ex) {

            System.out.println(ex.getMessage());

            return null;

        }

    }

    private String parseAsString(UpdateAddresses.Message value) {

        try {

            return (new Gson()).toJson(value);

        } catch (Exception ex) {

            System.out.println(ex.getMessage());

            return null;

        }

    }

    private Properties getProperties() {

        Properties properties = new Properties();

        properties.put(StreamsConfig.APPLICATION_ID_CONFIG, "streams-linesplit");

        properties.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");

properties.put(StreamsConfig.DEFAULT_KEY_SERDE_CLASS_CONFIG,

  Serdes.String().getClass());

   properties.put(StreamsConfig.DEFAULT_VALUE_SERDE_CLASS_CONFIG, 

  Serdes.String().getClass());

        properties.setProperty("group.id", "group.2");

        return properties;

    }

    private void shutdown(KafkaStreams streams, CountDownLatch latch) {

        Runtime.getRuntime().addShutdownHook(new Thread("streams-shutdown-hook") {

            @Override

            public void run() {

                streams.close();

                latch.countDown();

            }

        });

    }

    class Message {

        String type;

        UpdateAddresses.Message content;

        public boolean isAddress() {

            return MsgType.ADDRESS.getValue().equals(type);

        }

        public UpdateAddresses.Message getContent() {

            return content;

        }

    }

    enum MsgType {

        ADDRESS("adr");

        String type;

        MsgType(String type) {

            this.type = type;

        }

        String getValue() {

            return type;

        }

    }

}

Kafka Tables

O Kafka tables faz parte do Streams Framework, assim, basta importar o mesmo framework, conforme foi feito anteriormente via Maven.

O exemplo a seguir é um stream que processa a mensagem sumarizando e separando os endereços que foram filtrados no stream acima, tornando eles uma Kafka Table:

import com.google.gson.Gson;

import org.apache.kafka.clients.consumer.ConsumerConfig;

import org.apache.kafka.common.serialization.Serdes;

import org.apache.kafka.streams.*;

import org.apache.kafka.streams.kstream.KGroupedStream;

import org.apache.kafka.streams.kstream.KStream;

import org.apache.kafka.streams.kstream.KTable;

import org.apache.kafka.streams.kstream.Produced;

import java.util.Properties;

import java.util.UUID;

import java.util.concurrent.CountDownLatch;

import static java.util.Objects.nonNull;

public class UpdateAddresses {

    public static void main(String[] args) throws Exception {

        UpdateAddresses updateAddresses = new UpdateAddresses();

        updateAddresses.run();

    }

    private void run() {

        Properties properties = getProperties();

        Topology topology = getTopology();

        KafkaStreams streams = new KafkaStreams(topology, properties);

        CountDownLatch latch = new CountDownLatch(1);

        shutdown(streams, latch);

        try {

            streams.start();

            latch.await();

        } catch (final Throwable e) {

            System.out.println(e.getMessage());

        }

    }

    private Topology getTopology() {

        StreamsBuilder builder = new StreamsBuilder();

        KStream<String, String> stream = builder.stream("streams-only-addresses");

        KGroupedStream<String, String> result = stream

                .map((key, value) -> KeyValue.pair(key,parseAsMessage(value)))

                .filter((key, value) -> nonNull(value))

                .selectKey((keu, value) ->  value.getPerson())

                .map((key, value) -> KeyValue.pair(key,parseAsString(value)))

                .groupByKey();

        KTable<String, String> address = result.reduce((key, value) -> value);

        KTable<String, Long> changes = result.count();

]  address.toStream().to("streams-updated-addresses", 

  Produced.with(Serdes.String(), Serdes.String()));

       changes.toStream().to("streams-count-updated-addresses", 

  Produced.with(Serdes.String(), Serdes.Long()));

        return builder.build();

    }

    private Message parseAsMessage(String value) {

        try {

            return (new Gson()).fromJson(value, Message.class);

        } catch (Exception ex) {

            System.out.println("parseAsMessage: " + ex.getMessage());

            System.out.println(ex.getStackTrace());

            return null;

        }

    }

    private String parseAsString(Message value) {

        try {

            return (new Gson()).toJson(value);

        } catch (Exception ex) {

            System.out.println("parseAsString: " + ex.getMessage());

            System.out.println(ex.getStackTrace());

            return null;

        }

    }

    private Properties getProperties() {

        Properties properties = new Properties();

        properties.put(StreamsConfig.APPLICATION_ID_CONFIG, "streams-wordcount2");

        properties.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");

        properties.put(StreamsConfig.CACHE_MAX_BYTES_BUFFERING_CONFIG, 0);

  properties.put(StreamsConfig.DEFAULT_KEY_SERDE_CLASS_CONFIG, 

  Serdes.String().getClass().getName());        

  properties.put(StreamsConfig.DEFAULT_VALUE_SERDE_CLASS_CONFIG, 

  Serdes.String().getClass().getName());

        properties.put(ConsumerConfig.AUTO_OFFSET_RESET_CONFIG, "earliest");

        properties.setProperty("group.id", "group.2");

        return properties;

    }

    private static void shutdown(KafkaStreams streams, CountDownLatch latch) {

        Runtime.getRuntime().addShutdownHook(new Thread("streams-wordcount-shutdown-hook") {

            @Override

            public void run() {

                streams.close();

                latch.countDown();

            }

        });

    }

    class Message {

        String person;

        String street;

        Integer number;

        String neighborhood;

        String city;

        String state;

        String country;

        String zipcode;

        String getPerson() { return person; }

    }

}

Conclusões

O Apache Kafka é uma ferramenta incrível, e além de extremamente performática, é segura e resiliente. São várias as empresas que utilizam o Kafka, e no geral, são empresas que necessitam de extrema performance em suas aplicações, como Netflix, Spotify e no próprio AllowMe, aqui na Tempest.

Cookie	Duração	Descrição
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Navegue por tópicos

Compartilhe via:

Materiais