I am looking at moving some of my backend to a google cloud pub/sub and cloud dataflow architecture to handle stream processing. One of my main needs is to ensure that messages arrive in order to the subscriber, i am wondering if it is possible to fix each dataflow worker to the topic they are subscribing from, that way they shouldn't lose the message order they are processing.
Нельзя привязывать конкретных работников к конкретным темам. Назначение Dataflow - автоматизация разбиения, распределения и параллельной обработки нагрузки, а не выполнение работниками задач для различных нагрузок.
Но можно использовать фиксированное окно с группой по клавишам , а затем сортировать выходящие элементы. То, что сотрудники не могут исправить конкретные темы, не означает, что вы не можете делать группировки и сортировку, чтобы можно было упорядочить каждую тему. У вас также есть боковые входы , если вам нужно вводить дополнительные данные при обработке каждого элемента.
Я также рекомендую проверить документацию для заказа сообщений PubSub.
.