Name	Name	Last commit message	Last commit date
Latest commit History 8 Commits
src	src
test	test
web	web
Makefile	Makefile
README.md	README.md
pgpro_scheduler--1.0.sql	pgpro_scheduler--1.0.sql
pgpro_scheduler.control	pgpro_scheduler.control

pgpro_scheduler - расширение PostgreSQL для управления расписанием задач

pgpro_scheduler это планировщик задач для СУБД PostgreSQL, который позволяет планировать исполнение задач в базе и контроллировать их исполнение.

Задачи это наборы SQL команд. Расписание выполнения задач задается либо строкой cron, либо указанием конкретных дат запуска, либо JSON объектом, в котором указывается в какие дни часы и минуты задача должна быть запущена. Возможна комбинация методов описания расписания.

Каждая задача имеет возможность для вычисления времени следующего своего запуска. Набор SQL команд в задаче может обрабатываться в разных транзакциях, по транзакции на команду, или в одной. В последнем случае имеется возможность задания SQL конманды, которая будет выполняться в случае аварийного завершения транзакции.

Installation

pgpro_scheduler это расширение PostgreSQL и не тербует никаких специальных пререквизитов.

Перед сборкой расширения из исходного кода убедитесь, что переменная окружения PATH содержит путь к команде pg_config. Так же убедитесь, что у вас установлена версия PostgresSQL для разработчиков или PostgreSQL собран из исходного кода.

Процедура установки выглядит следующим образом:

$ cd pgpro_scheduler
$ make USE_PGXS=1
$ sudo make USE_PGXS=1 install
$ psql <DBNAME> -c "CREATE EXTNESION pgpro_scheduler"

Конфигурация

Расширение определяет ряд переменных в PostgreSQL (GUC), которые позволяют управлять его конфигурацией.

schedule.enable - двоичная переменная, которая поределяет разрешено ли выполнение расширения. По умолчанию: false.
schedule.database - строковая переменная, указывает с какими базам может работать расширение. По умолчанию - пустая строка.
schedule.nodename - строковая переменная, содержит название узла. По умолчанию - master. Если расширение используется на одной машине, то переменная не имеет смысла.
schedule.max_workers - целочисленная переменная, содержит максимальное количество одновременно работающих задач для одной базы. По умолчанию - 2.
schedule.transaction_state - строковая переменная, устанавливается расширением в процессе работы. По умолчанию - undefined. Переменная используется для определения статуса завершения транзакции при вычислении следующего времени выполнения задачи. Возможные значения:
- success - транзакция завершилась успешно
- failure - транзакция завершилась аварийно
- running - транзакция в процессе исполнения
- undefined - транзакция не началась Последние два значения не должны попадать в процедуру определения следующего значения. Это будет означать какую-то внутреннюю ошибку в работе расширения.

Управление

Управление работой планировщика задач осуществляется через переменные PostgreSQL, которые описаны в предыдущем разделе.

Например, у вас существует свежая инсталляция PostgreSQL с установленным расширением планировщика. И вам требуется запустить планировщик на двух базах database1 и database2. При этом вы хотите что бы планировщик для базы database1 мог исполнять 5 задач одновременно, а для базы database2 - 3.

В $DATADIR/postgresql.conf должна присутствовать строка:

shared_preload_libraries = 'pgpro_scheduler'

Далее в psql введите следующие команды:

ALTER SYSTEM SET schedule.enable = true;
ALTER SYSTEM SET schedule.database = 'database1,database2';
ALTER DATABASE database1 SET schedule.max_workers = 5;
ALTER DATABASE database2 SET schedule.max_workers = 3;
SELECT pg_reload_conf();

Если вам не нужны указания различных значений для разных баз данных, то все это можно занести в конфигурационный файл PostgreSQL и перечитать конфигурацию. Перезапуска не требуется.

Пример записей в $DATADIR/postgresql.conf, если количество одновременно исполняемых задач в обоих базах одинаково:

shared_preload_libraries = 'pgpro_scheduler'
schedule.enable = on
schedule.database = 'database1,database2'
schedule.max_workers = 5

Планировщик задач работает с помощью Background Worker'ов. Поэтому должно быть правильно установленно значение переменной max_worker_processes. Минимальное значение переменной может быть расчитано по следующей формуле:

N<sub>min</sub> = 1 + N<sub>databases</sub> + MAX_WORKERS<sub>1</sub> + ... + MAX_WORKERS<sub>n</sub>

Где:

N_min - это минимальное значение переменной, которое требуется для работы конфигурации. Имейте в виду, что Background Workes'ы могут требоваться для работы других систем, например, параллельных запросов.
N_databases - это количество баз данных, для которых запускается планировщик.
MAX_WORKERS_n - это значение переменной schedule.max_workers в контексте каждой базы данных, для которой запусткается планировщик.

SQL Schema

The extention creates a schedule schema. All functions, types and tables of extension are defined within this scheme. Direct access to the tables created is forbidden to public. All actions should be done by means of sql interface functions.

SQL Types

Extension defines two SQL types and uses them as types of return values in interface functions.

CREATE TYPE schedule.cron_rec AS(
	id integer,             -- job record id
	node text,              -- name of node 
	name text,              -- name of the job
	comments text,          -- comment on job
	rule jsonb,             -- rule of schedule
	commands text[],        -- sql commands to execute
	run_as text,            -- name of the executor user
	owner text,             -- name of the owner user
	start_date timestamp,   -- left bound of execution time window 
							-- unbound if NULL
	end_date timestamp,     -- right bound of execution time window
							-- unbound if NULL
	use_same_transaction boolean,   -- if true sequence of command executes 
									-- in a single transaction
	last_start_available interval,  -- time interval while command could 
									-- be executed if it's impossible 
									-- to start it at scheduled time
	max_instances int,		-- the number of instances run at the same time
	max_run_time interval,  -- time interval - max execution time when 
							-- elapsed - sequence of queries will be aborted
	onrollback text,        -- statement to be executed on ROLLBACK
	next_time_statement text,   -- statement to be executed to calculate 
								-- next execution time
	active boolean,         -- is job executes at that moment
	broken boolean          -- if job is broken
);

CREATE TYPE schedule.cron_job AS(
	cron integer,           -- job record id
	node text,              -- name of node 
	scheduled_at timestamp, -- scheduled job time
	name text,              -- job name
	comments text,          -- job comments
	commands text[],        -- sql commands to execute
	run_as text,            -- name of the executor user
	owner text,             -- name of the owner user
	use_same_transaction boolean,	-- if true sequence of command executes
							-- in a single transaction
	started timestamp,      -- time when job started
	last_start_available timestamp,	-- time untill job must be started
	finished timestamp,     -- time when job finished
	max_run_time interval,  -- max execution time
	max_instances int,		-- the number of instances run at the same time
	onrollback text,        -- statement on ROLLBACK
	next_time_statement text,	-- statement to calculate next start time
	status text,             -- status of job: working, done, error 
	message text             -- error message if one
);