Deep Hierarchical Reinforcement Learning Algorithm in Partially Observable Markov Decision Processes

by Le Pham Tuyen, Ngo Anh Vien, Abu Layek, TaeChoong Chung

Entity Metadata (schema)

`abstracts[]`	{'sha1': '4e5b7767f133135e20333dfb710580539f847031', 'content': 'In recent years, reinforcement learning has achieved many remarkable\nsuccesses due to the growing adoption of deep learning techniques and the rapid\ngrowth in computing power. Nevertheless, it is well-known that flat\nreinforcement learning algorithms are often not able to learn well and\ndata-efficient in tasks having hierarchical structures, e.g. consisting of\nmultiple subtasks. Hierarchical reinforcement learning is a principled approach\nthat is able to tackle these challenging tasks. On the other hand, many\nreal-world tasks usually have only partial observability in which state\nmeasurements are often imperfect and partially observable. The problems of RL\nin such settings can be formulated as a partially observable Markov decision\nprocess (POMDP). In this paper, we study hierarchical RL in POMDP in which the\ntasks have only partial observability and possess hierarchical properties. We\npropose a hierarchical deep reinforcement learning approach for learning in\nhierarchical POMDP. The deep hierarchical RL algorithm is proposed to apply to\nboth MDP and POMDP learning. We evaluate the proposed algorithm on various\nchallenging hierarchical POMDP.', 'mimetype': 'text/plain', 'lang': 'en'}
`container`
`container_id`
`contribs[]`	{'index': 0, 'creator_id': None, 'creator': None, 'raw_name': 'Le Pham Tuyen', 'given_name': None, 'surname': None, 'role': 'author', 'raw_affiliation': None, 'extra': None} {'index': 1, 'creator_id': None, 'creator': None, 'raw_name': 'Ngo Anh Vien', 'given_name': None, 'surname': None, 'role': 'author', 'raw_affiliation': None, 'extra': None} {'index': 2, 'creator_id': None, 'creator': None, 'raw_name': 'Abu Layek', 'given_name': None, 'surname': None, 'role': 'author', 'raw_affiliation': None, 'extra': None} {'index': 3, 'creator_id': None, 'creator': None, 'raw_name': 'TaeChoong Chung', 'given_name': None, 'surname': None, 'role': 'author', 'raw_affiliation': None, 'extra': None}
`ext_ids`	`{'doi': None, 'wikidata_qid': None, 'isbn13': None, 'pmid': None, 'pmcid': None, 'core': None, 'arxiv': '1805.04419v1', 'jstor': None, 'ark': None, 'mag': None, 'doaj': None, 'dblp': None, 'oai': None, 'hdl': None}`
`files[]`	{'state': 'active', 'ident': '5brm2drif5hh5gzhlhy6akp4za', 'revision': '67247b35-ebdd-4f45-85c9-cdf2efce6394', 'redirect': None, 'extra': None, 'edit_extra': None, 'size': 2207958, 'md5': '2fef78c54ccc4b4f6b80cf5c9f4b2c5a', 'sha1': '19e82d826926b0feb2e6c203de2e7d5f2e279967', 'sha256': '385c258961b3a0c949e094cf1613a8c66c19129e4360e34468f022d1c08f4edc', 'urls': [{'url': 'https://arxiv.org/pdf/1805.04419v1.pdf', 'rel': 'repository'}, {'url': 'https://web.archive.org/web/20200902060513/https://arxiv.org/pdf/1805.04419v1.pdf', 'rel': 'webarchive'}], 'mimetype': 'application/pdf', 'content_scope': None, 'release_ids': ['k3k6sbgd35gmxmnoanqbgknery'], 'releases': None}
`filesets`	`[]`
`issue`
`language`	`en`
`license_slug`	`CC-BY`
`number`
`original_title`
`pages`
`publisher`
`refs`	`[]`
`release_date`	`2018-05-11`
`release_stage`	`submitted`
`release_type`	`article`
`release_year`	`2018`
`subtitle`
`title`	`Deep Hierarchical Reinforcement Learning Algorithm in Partially Observable Markov Decision Processes`
`version`	`v1`
`volume`
`webcaptures`	`[]`
`withdrawn_date`
`withdrawn_status`
`withdrawn_year`
`work_id`	`kmhmeigefvctjdlyyw5ib4oo7i`

As JSON via API

Extra Metadata (raw JSON)

`arxiv.base_id`	`1805.04419`
`arxiv.categories`	`['cs.AI']`
`arxiv.comments`	`This work has been submitted to the IEEE for possible publication. Copyright may be transferred without notice, after which this version may no longer be accessible`

Deep Hierarchical Reinforcement Learning Algorithm in Partially Observable Markov Decision Processes release_k3k6sbgd35gmxmnoanqbgknery

Entity Metadata (schema)

Extra Metadata (raw JSON)

Deep Hierarchical Reinforcement Learning Algorithm in Partially Observable Markov Decision Processes `release_k3k6sbgd35gmxmnoanqbgknery`