在这篇文章中,我们将构建一个简单的Rust应用程序,由生产者和消费者组成,使用来自Hacker News的搜索数据。
在本例中,我们将利用Cargo的工作区特性。工作区包含多个应用程序或库,但可以从顶层目录编译。
让我们开始吧,创建包含所有源代码的项目目录。
$ mkdir kafka_hn_processing
$ cd kafka_hn_processing
进入新目录,设置我们的工作空间:
$ cat > Cargo.toml
[workspace]
members = [
"producer"
]
接下来,我们创建“producer”项目:
$ cargo new producer
$ cd producer
要使这个应用程序工作,我们需要安装一些依赖项。为此我们使用了cargo add(注意:cargo add至少需要Rust 1.62)。cargo add下载依赖项并将其添加到项目的Cargo.toml中。
$ cargo add kafka -p producer
$ cargo add reqwest --features=json -p producer
$ cargo add tokio -p producer --features=full
$ cargo add serde --features=derive -p producer
$ cargo add serde_json -p producer
$ cargo add urlencoding -p producer
我们添加了如下依赖项:
在开始编写代码之前,我们需要设置Docker环境。在项目的根目录下,创建docker-compose.yml:
---
version: '3.8'
services:
rust-log-processing:
image: mcr.microsoft.com/devcontainers/rust:0-1-bullseye
volumes:
- ..:/workspaces:cached
cap_add:
- SYS_PTRACE
security_opt:
- seccomp:unconfined
command: /bin/sh -c "while sleep 1000; do :; done"
zookeeper:
image: confluentinc/cp-zookeeper:7.3.0
container_name: zookeeper
environment:
ZOOKEEPER_CLIENT_PORT: 2181
ZOOKEEPER_TICK_TIME: 2000
broker:
image: confluentinc/cp-kafka:7.3.0
container_name: broker
ports:
# To learn about configuring Kafka for access across networks see
# https://www.confluent.io/blog/kafka-client-cannot-connect-to-broker-on-aws-on-docker-etc/
- "9092:9092"
depends_on:
- zookeeper
environment:
KAFKA_BROKER_ID: 1
KAFKA_ZOOKEEPER_CONNECT: 'zookeeper:2181'
KAFKA_LISTENER_SECURITY_PROTOCOL_MAP: PLAINTEXT:PLAINTEXT,PLAINTEXT_INTERNAL:PLAINTEXT
KAFKA_ADVERTISED_LISTENERS: PLAINTEXT://localhost:9092,PLAINTEXT_INTERNAL://broker:29092
KAFKA_OFFSETS_TOPIC_REPLICATION_FACTOR: 1
KAFKA_TRANSACTION_STATE_LOG_MIN_ISR: 1
KAFKA_TRANSACTION_STATE_LOG_REPLICATION_FACTOR: 1
我们不会直接在本地机器上运行Rust代码,而是在Docker容器中运行。VSCode提供了devcontainer特性,允许我们在Docker容器中运行工作空间代码。
要开始使用Dev Container,我们需要一个.devcontainer文件夹来进行VSCode设置。在根级别目录下创建.devcontainer。文件夹结构:
$ mkdir .devcontainer
$ ls -l
drwxr-xr-x 7 Justin staff 224 2 24 17:02 .
drwxr-xr-x 13 Justin staff 416 2 24 16:38 ..
drwxr-xr-x 2 Justin staff 64 2 24 16:59 .devcontainer
-rw-r--r-- 1 Justin staff 27259 2 24 16:47 Cargo.lock
-rw-r--r-- 1 Justin staff 41 2 24 16:43 Cargo.toml
-rw-r--r-- 1 Justin staff 1225 2 24 16:53 docker-compose.yml
drwxr-xr-x 6 Justin staff 192 2 24 17:02 producer
然后,在.devcontainer中创建.devcontainer/devcontainer.json配置文件:
{
"name": "Rust",
"service": "rust-log-processing",
"dockerComposeFile": "../docker-compose.yml",
"features": {
"ghcr.io/devcontainers/features/rust:1.0.11": {}
},
"workspaceFolder": "/workspaces/${localWorkspaceFolderBasename}",
"shutdownAction": "stopCompose"
}
我们的配置更高级,因为我们也利用了Docker Compose。默认情况下,VSCode在一个容器中运行所有内容。因为我们需要Kafka来测试我们的代码,需要让它知道我们的docker-compose.yml文件。
有了这些文件,我们就可以开始编写代码了。在VSCode中打开项目:
code .
重要提示:确保在容器中打开项目。VSCode通常会提示你这样做,但如果没有,请单击左下角的小图标,并在命令菜单中选择“重新打开容器”。
首先,我们添加了一些代码,以允许我们与Hacker News API进行通信。我们选择Hacker News是因为它的API不需要认证,并且提供了大量我们可以处理的数据。
创建一个新的文件producer/src/hn.rs:
use serde::{Serialize, Deserialize};
#[derive(Debug, Serialize, Deserialize)]
pub struct HackerNewsResponse {
pub hits: Vec<HNSearchResult>,
}
#[derive(PartialEq, Clone, Debug, Serialize, Deserialize)]
pub struct HNSearchResult {
pub author: String,
#[serde(alias = "objectID")]
pub id: String,
pub title: String,
url: Option<String>,
pub story_text: Option<String>,
#[serde(alias = "_tags")]
pub tags: Option<Vec<String>>,
pub points: u32,
}
pub async fn fetch_hn_stories(search_term: String, search_result_limit: u32) -> Result<HackerNewsResponse, reqwest::Error> {
let url_encoded_search_term = urlencoding::encode(&search_term);
let url_str= format!("https://hn.algolia.com/api/v1/search_by_date?query={}&tags=story&hitsPerPage={}", url_encoded_search_term, search_result_limit);
let client = reqwest::Client::new();
let request = client.get(url_str)
.build().unwrap();
let json_response = client.execute(request)
.await?
.json::<HackerNewsResponse>()
.await?;
Ok(json_response)
}
我们将使用这段代码通过搜索API从Hacker News获取故事,为Kafka生成内容。在我们的main函数中,我们将调用fetch_hn_stories,其中包含一个搜索词和一个限制,表示我们最多需要多少个结果。
在main.rs中添加一个新函数:
use kafka::producer::{Producer, Record, RequiredAcks};
use std::time::Duration;
use crate::hn::HNSearchResult;
mod hn;
fn send_to_kafka(host: &str, topic: &str, payload: Vec<HNSearchResult>) {
let mut producer = Producer::from_hosts(vec![host.to_owned()])
.with_ack_timeout(Duration::from_secs(1))
.with_required_acks(RequiredAcks::One)
.create()
.unwrap();
for search_result in payload {
let buffer = serde_json::to_string(&search_result).unwrap();
producer
.send(&Record::from_value(topic, buffer.as_bytes()))
.unwrap();
}
}
fn main() {
//...
}
send_to_kafka包含了与Kafka broker通信所需的最小设置。我们配置了一个超时(.with_ack_timeout)以及我们至少需要多少ack才能继续(.with_required_acks)。由于我们的Dev Setup只使用一个broker,所以我们将其设置为1(这个设置可能在生产中有所不同,这取决于你的用例和可用broker的数量)。
在topic中,Kafka以字节的形式存储有效负载。因此,我们需要将它序列化为一个字节数组(buffer.as_bytes)。
send_to_kafka函数就绪后,让我们调用main():
//producer/src/main.rs
#[tokio::main]
async fn main() -> Result<(), Box<dyn std::error::Error>> {
let stories = hn::fetch_hn_stories("Ruby".into(), 100).await?;
println!("Fetched {} stories", stories.hits.len());
send_to_kafka("broker:9092", "hnstories", stories.hits);
Ok(())
}
我们用任意的搜索词(比如“Ruby”)获取100个故事,然后把它发送给kafka。
创建Kafka topic
在运行代码之前,我们需要创建一个Kafka主题。默认情况下,Kafka安装附带命令行实用程序来帮助完成这些维护任务。在本地计算机的终端上运行以下命令:
$ docker exec broker kafka-topics --bootstrap-server broker:9092 --create --topic hnstories
Created topic hnstories.
生产者就绪后,让我们创建消费者,读取来自主题的Hacker News搜索结果。在我们运行cargo new之前,打开Cargo.toml,在项目的根目录下添加一个新项目:
[workspace]
members = [
"producer"
"consumer"
]
将“consumer”添加到成员列表中,保存并关闭文件。在dev容器中,运行以下命令创建一个新项目:
cargo new consumer
为consumer添加以下依赖项:
$ cargo add serde --features=derive -p consumer
$ cargo add serde_json -p consumer
$ cargo add kafka -p consumer
在main.rs中添加以下代码:
use kafka::consumer::{Consumer, FetchOffset};
fn main() {
let mut consumer =
Consumer::from_hosts(vec!("broker:9092".to_owned()))
.with_topic("hnstories".to_owned())
.with_fallback_offset(FetchOffset::Earliest)
.create()
.unwrap();
loop {
for ms in consumer.poll().unwrap().iter() {
for m in ms.messages() {
let str = String::from_utf8_lossy(m.value);
println!("{:?}",str);
}
let _ = consumer.consume_messageset(ms);
}
consumer.commit_consumed().unwrap();
}
}
让我们一步一步地研究这段代码。
首先,我们创建一个新的消费者:
let mut consumer =
Consumer::from_hosts(vec!("broker:9092".to_owned()))
.with_topic("hnstories".to_owned())
.with_fallback_offset(FetchOffset::Earliest)
.create()
.unwrap();
我们连接到单个broker(broker:9092)。在本例中,broker是由Docker compose管理的域名。我们正在监听单个topic(hnstories)并配置一个回退偏移量。
回退偏移量允许使用者从topic的开头开始读取消息。如果省略此配置,一旦启动并运行,它将不考虑以前的事件。
是时候运行代码了,在VSCode中,打开终端在dev容器的上下文中运行命令。
在VSCode中打开两个终端会话。然后,运行代码:
cargo run -p producer
在第二个会话中,运行:
cargo run -p consumer
这个命令启动consumer应用程序,consumer轮询topic以获取内容,并在接收到新消息时打印出消息。
我们只需要几个步骤就可以开始使用Kafka构建应用程序。我们依赖于Docker的Compose配置,它支持Kafka和Zookeeper的单个实例。有了这些,我们就需要一个生产者和消费者。生产者在主题上写入新数据,而消费者则读取它。为了保持所有东西都是自包含的,我们使用了VSCode的开发容器。
本文由微信公众号coding到灯火阑珊原创,哈喽比特收录。
文章来源:https://mp.weixin.qq.com/s/-NzHfK5-Bb4lhLENM1sNTg
京东创始人刘强东和其妻子章泽天最近成为了互联网舆论关注的焦点。有关他们“移民美国”和在美国购买豪宅的传言在互联网上广泛传播。然而,京东官方通过微博发言人发布的消息澄清了这些传言,称这些言论纯属虚假信息和蓄意捏造。
日前,据博主“@超能数码君老周”爆料,国内三大运营商中国移动、中国电信和中国联通预计将集体采购百万台规模的华为Mate60系列手机。
据报道,荷兰半导体设备公司ASML正看到美国对华遏制政策的负面影响。阿斯麦(ASML)CEO彼得·温宁克在一档电视节目中分享了他对中国大陆问题以及该公司面临的出口管制和保护主义的看法。彼得曾在多个场合表达了他对出口管制以及中荷经济关系的担忧。
今年早些时候,抖音悄然上线了一款名为“青桃”的 App,Slogan 为“看见你的热爱”,根据应用介绍可知,“青桃”是一个属于年轻人的兴趣知识视频平台,由抖音官方出品的中长视频关联版本,整体风格有些类似B站。
日前,威马汽车首席数据官梅松林转发了一份“世界各国地区拥车率排行榜”,同时,他发文表示:中国汽车普及率低于非洲国家尼日利亚,每百户家庭仅17户有车。意大利世界排名第一,每十户中九户有车。
近日,一项新的研究发现,维生素 C 和 E 等抗氧化剂会激活一种机制,刺激癌症肿瘤中新血管的生长,帮助它们生长和扩散。
据媒体援引消息人士报道,苹果公司正在测试使用3D打印技术来生产其智能手表的钢质底盘。消息传出后,3D系统一度大涨超10%,不过截至周三收盘,该股涨幅回落至2%以内。
9月2日,坐拥千万粉丝的网红主播“秀才”账号被封禁,在社交媒体平台上引发热议。平台相关负责人表示,“秀才”账号违反平台相关规定,已封禁。据知情人士透露,秀才近期被举报存在违法行为,这可能是他被封禁的部分原因。据悉,“秀才”年龄39岁,是安徽省亳州市蒙城县人,抖音网红,粉丝数量超1200万。他曾被称为“中老年...
9月3日消息,亚马逊的一些股东,包括持有该公司股票的一家养老基金,日前对亚马逊、其创始人贝索斯和其董事会提起诉讼,指控他们在为 Project Kuiper 卫星星座项目购买发射服务时“违反了信义义务”。
据消息,为推广自家应用,苹果现推出了一个名为“Apps by Apple”的网站,展示了苹果为旗下产品(如 iPhone、iPad、Apple Watch、Mac 和 Apple TV)开发的各种应用程序。
特斯拉本周在美国大幅下调Model S和X售价,引发了该公司一些最坚定支持者的不满。知名特斯拉多头、未来基金(Future Fund)管理合伙人加里·布莱克发帖称,降价是一种“短期麻醉剂”,会让潜在客户等待进一步降价。
据外媒9月2日报道,荷兰半导体设备制造商阿斯麦称,尽管荷兰政府颁布的半导体设备出口管制新规9月正式生效,但该公司已获得在2023年底以前向中国运送受限制芯片制造机器的许可。
近日,根据美国证券交易委员会的文件显示,苹果卫星服务提供商 Globalstar 近期向马斯克旗下的 SpaceX 支付 6400 万美元(约 4.65 亿元人民币)。用于在 2023-2025 年期间,发射卫星,进一步扩展苹果 iPhone 系列的 SOS 卫星服务。
据报道,马斯克旗下社交平台𝕏(推特)日前调整了隐私政策,允许 𝕏 使用用户发布的信息来训练其人工智能(AI)模型。新的隐私政策将于 9 月 29 日生效。新政策规定,𝕏可能会使用所收集到的平台信息和公开可用的信息,来帮助训练 𝕏 的机器学习或人工智能模型。
9月2日,荣耀CEO赵明在采访中谈及华为手机回归时表示,替老同事们高兴,觉得手机行业,由于华为的回归,让竞争充满了更多的可能性和更多的魅力,对行业来说也是件好事。
《自然》30日发表的一篇论文报道了一个名为Swift的人工智能(AI)系统,该系统驾驶无人机的能力可在真实世界中一对一冠军赛里战胜人类对手。
近日,非营利组织纽约真菌学会(NYMS)发出警告,表示亚马逊为代表的电商平台上,充斥着各种AI生成的蘑菇觅食科普书籍,其中存在诸多错误。
社交媒体平台𝕏(原推特)新隐私政策提到:“在您同意的情况下,我们可能出于安全、安保和身份识别目的收集和使用您的生物识别信息。”
2023年德国柏林消费电子展上,各大企业都带来了最新的理念和产品,而高端化、本土化的中国产品正在不断吸引欧洲等国际市场的目光。
罗永浩日前在直播中吐槽苹果即将推出的 iPhone 新品,具体内容为:“以我对我‘子公司’的了解,我认为 iPhone 15 跟 iPhone 14 不会有什么区别的,除了序(列)号变了,这个‘不要脸’的东西,这个‘臭厨子’。