DeepDream

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
Мона Ліза з ефектом DeepDream за допомогою мережі VGG16, навченої на ImageNet

DeepDream — це програма комп’ютерного бачення, створена інженером Google Олександром Мордвінцевим, яка використовує згорткову нейронну мережу для пошуку та посилення образів у зображеннях за допомогою алгоритмічної парейдолії, таким чином створюючи вигляд сновидіння, який нагадує психоделічний досвід у навмисно надмірно оброблених зображеннях.[1][2][3]

Програма Google популяризувала термін (глибоке) «сновидіння» для позначення генерації зображень, які викликають бажані збудження в натренованій глибокій мережі, і тепер цей термін стосується набору пов'язаних підходів.

Історія

[ред. | ред. код]

Програмне забезпечення DeepDream, походить від глибокої згорткової мережі під кодовою назвою «Inception» на честь однойменного фільму[1][2][3], розробленої для ImageNet Large-Scale Visual Recognition Challenge(інші мови) (ILSVRC) у 2014 році[3] і випущеної у липні 2015 року.

Ідея та назва стали популярними в Інтернеті в 2015 році завдяки програмі DeepDream від Google. Ця ідея походить з ранніх етапів історії нейронних мереж[4], і подібні методи використовувалися для синтезу візуальних текстур.[5] Відповідні ідеї візуалізації були розроблені (до роботи Google) кількома дослідницькими групами.[6][7]

Після того, як Google опублікував свої технології та відкрив вихідний код[8], на ринку з'явилася низка інструментів у формі веб-сервісів, мобільних додатків і програмного забезпечення для настільних комп'ютерів, які дозволяють користувачам перетворювати власні фотографії.[9]

Процес

[ред. | ред. код]
Зображення медузи на блакитному фоні
Зображення медузи, оброблене десятьма ітераціями DeepDream
Зображення медузи, оброблене п'ятдесятьма ітераціями DeepDream
Оригінальне зображення (угорі) після застосування десяти (посередині) і п’ятдесяти (внизу) ітерацій DeepDream, мережа була навчена сприймати собак, а потім працювала у зворотному напрямку

Програмне забезпечення було призначене для виявлення облич та інших образів на зображеннях з метою автоматичної класифікації зображень.[10] Однак після навчання мережу також можна запустити у зворотному напрямку, попросивши трохи відкоригувати вихідне зображення, щоб певний вихідний нейрон (наприклад, для облич чи певних тварин) давав вищу оцінку достовірності. Це можна використовувати для візуалізації, щоб краще зрозуміти структуру нейронної мережі, що виникає, і є основою для концепції DeepDream. Це зворотнє функціонування ніколи не є абсолютно чітким та однозначним, оскільки воно використовує процес відображення один-до-багатьох.[11] Однак після достатньої кількості повторів навіть образи, спочатку позбавлені шуканих рис, будуть скориговані настільки, що в результаті виникне форма парейдолії, за допомогою якої алгоритмічно генеруються психоделічні та сюрреалістичні зображення. Оптимізація нагадує зворотне поширення, однак, замість коригування ваг мережі, ваги залишаються фіксованими, а коригуються вхідні дані.

Наприклад, існуюче зображення можна змінити так, щоб воно стало «більш котячим», і отримане покращене зображення можна знову ввести в обробку.[2] Таке використання нагадує пошук тварин або інших образів у хмарах.

Застосування градієнтного спуску незалежно до кожного пікселя вхідних даних створює зображення, у яких сусідні пікселі мають мало зв'язку, і, отже, зображення містить занадто багато високочастотної інформації. Згенеровані зображення можна значно покращити, включивши регуляризатор, який віддає перевагу входам, що мають природну статистику зображень (без переваги для будь-якого конкретного зображення), або просто гладкі.[7][12][13] Наприклад, Mahendran et al.[12] використали регуляризатор загальної варіації, який віддає перевагу зображенням, які є кусково-постійними. Різні регуляризатори обговорюються далі в Yosinski та ін.[13] Нещодавно було опубліковано поглиблене візуальне дослідження методів візуалізації ознак і регулярізації.[14]

Наведена подібність образів до галюцинацій, викликаних ЛСД і псилоцибіном, свідчить про функціональну подібність між штучними нейронними мережами та певними шарами зорової кори.[15]

Нейронні мережі, такі як DeepDream, мають біологічні аналогії, які дають змогу зрозуміти процеси роботи мозку та формування свідомості. Галюциногени, такі як ДМТ, змінюють функцію серотонінергічної системи, яка присутня в шарах зорової кори. Нейронні мережі навчаються на вхідних векторах і змінюються внутрішніми варіаціями під час процесу навчання. Вхідні та внутрішні модифікації представляють обробку екзогенних та ендогенних сигналів відповідно в зоровій корі. Оскільки внутрішні варіації модифікуються в глибоких нейронних мережах, вихідне зображення відображає ці зміни. Ця специфічна маніпуляція демонструє, як внутрішні механізми мозку аналогічні внутрішнім шарам нейронних мереж. Зміни рівня внутрішнього шуму показують, як галюциногени пропускають зовнішню сенсорну інформацію, що призводить до того, що внутрішні упереджені концепції сильно впливають на зорове сприйняття.[16]

Використання

[ред. | ред. код]
Фотографія трьох чоловіків у басейні, ретельно оброблена DeepDream

Ідея сновидінь може бути застосована до прихованих (внутрішніх) нейронів, відмінних від тих, що знаходяться у виході, що дозволяє досліджувати ролі та представлення різних частин мережі.[13] Також можна оптимізувати вхідні дані, щоб задовольнити або один нейрон (це використання іноді називають максимізацією збудження, англ. Activity Maximization)[17] або цілий шар нейронів.

Хоча сновидіння найчастіше використовується для візуалізації мереж або створення комп'ютерного мистецтва, нещодавно було запропоновано, що додавання «мріяних» вхідних даних до навчального набору може покращити час навчання для абстракцій у інформатиці.[18]

Було також продемонстровано, що модель DeepDream має застосування в галузі історії мистецтва.[19]

DeepDream був використаний для музичного кліпу Foster the People на пісню «Doing It for the Money(інші мови)».[20]

У 2017 році дослідницька група з Університету Сассекса створила машину галюцинацій, застосувавши алгоритм DeepDream до попередньо записаного панорамного відео, що дозволяє користувачам досліджувати середовища віртуальної реальності, імітуючи досвід психоактивних речовин та/або психопатологічних станів.[21] Вони змогли продемонструвати, що суб'єктивні переживання, викликані машиною галюцинацій, суттєво відрізнялися від контрольних (не «галюциногенних») відео, але мали феноменологічну схожість із психоделічним станом (після введення псилоцибіну).

У 2021 році дослідження, опубліковане в журналі Entropy(інші мови), продемонструвало подібність між DeepDream і реальним психоделічним досвідом із нейронауковими доказами.[22] Автори записали електроенцефалограму (ЕЕГ) учасників під час пасивного перегляду відеокліпу та його аналога, згенерованого DeepDream. Вони виявили, що відео DeepDream викликало вищу ентропію в сигналі ЕЕГ і вищий рівень функціонального зв’язку(інші мови) між областями мозку[22]. Обидві ознаки добре відомі біомаркери(інші мови) справжнього психоделічного досвіду.[23]

У 2022 році дослідницька група під керівництвом Університету Тренто «виміряла когнітивну гнучкість і креативність учасників після перегляду панорамних відео у віртуальній реальності та їхніх галюцинаторних аналогів, згенерованих алгоритмом DeepDream, імітуючи психоделічний вплив. Люди демонстрували ослаблений внесок автоматичного процесу та хаотичну динаміку, що лежить в основі їхніх процесів прийняття рішень, імовірно, через реорганізацію когнітивної динаміки, яка полегшує дослідження незвичайних стратегій прийняття рішень і перешкоджає автоматизованому вибору».[24]

Див. також

[ред. | ред. код]

Примітки

[ред. | ред. код]
  1. а б Mordvintsev, Alexander; Olah, Christopher; Tyka, Mike (2015). DeepDream - a code example for visualizing Neural Networks. Google Research. Архів оригіналу за 8 липня 2015.
  2. а б в Mordvintsev, Alexander; Olah, Christopher; Tyka, Mike (2015). Inceptionism: Going Deeper into Neural Networks. Google Research. Архів оригіналу за 3 липня 2015.
  3. а б в Szegedy, Christian; Wei Liu; Yangqing Jia; Sermanet, Pierre; Reed, Scott; Anguelov, Dragomir; Erhan, Dumitru; Vanhoucke, Vincent; Rabinovich, Andrew (2015-06). Going deeper with convolutions. IEEE. с. 1—9. doi:10.1109/CVPR.2015.7298594. ISBN 978-1-4673-6964-0. Процитовано 22 липня 2024.
  4. Lewis (1988). Creation by refinement: a creativity paradigm for gradient descent learning networks. IEEE International Conference on Neural Networks. IEEE. doi:10.1109/icnn.1988.23933. Процитовано 22 липня 2024.
  5. Portilla, J; Simoncelli, Eero (2000). A parametric texture model based on joint statistics of complex wavelet coefficients. International Journal of Computer Vision. 40: 49—70. doi:10.1023/A:1026553619983.
  6. Erhan, Dumitru (2009). Visualizing Higher-Layer Features of a Deep Network. International Conference on Machine Learning Workshop on Learning Feature Hierarchies. Процитовано 22 липня 2024.
  7. а б Simonyan, Karen; Vedaldi, Andrea; Zisserman, Andrew (2013). Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency Maps. doi:10.48550/ARXIV.1312.6034. Процитовано 22 липня 2024.
  8. deepdream на GitHub
  9. Daniel Culpan (3 липня 2015). These Google "Deep Dream" Images Are Weirdly Mesmerising. Wired. Архів оригіналу за 8 травня 2016. Процитовано 25 липня 2015.
  10. Rich McCormick (7 липня 2015). Fear and Loathing in Las Vegas is terrifying through the eyes of a computer. The Verge. Процитовано 25 липня 2015.
  11. Hayes, Brian (2015). Computer Vision and Computer Hallucinations. American Scientist. 103 (6): 380. doi:10.1511/2015.117.380. ISSN 0003-0996.
  12. а б Mahendran, Aravindh; Vedaldi, Andrea (2015-06). Understanding deep image representations by inverting them. IEEE. с. 5188—5196. doi:10.1109/CVPR.2015.7299155. ISBN 978-1-4673-6964-0. Процитовано 22 липня 2024.
  13. а б в Yosinski, Jason; Clune, Jeff; Nguyen, Anh; Fuchs, Thomas; Lipson, Hod (2015). Understanding Neural Networks Through Deep Visualization. doi:10.48550/ARXIV.1506.06579. Процитовано 22 липня 2024.
  14. Olah, Chris; Mordvintsev, Alexander; Schubert, Ludwig (7 листопада 2017). Feature Visualization. Distill (амер.). 2 (11). doi:10.23915/distill.00007. ISSN 2476-0757.
  15. LaFrance, Adrienne (3 вересня 2015). When Robots Hallucinate. The Atlantic. Процитовано 24 вересня 2015.
  16. Timmermann, Christopher (12 грудня 2020). Neural Network Models for DMT-induced Visual Hallucinations. Neuroscience of Consciousness. NIH. 2020 (1): niaa024. doi:10.1093/nc/niaa024. PMC 7734438. PMID 33343929.
  17. Nguyen, Anh; Dosovitskiy, Alexey; Yosinski, Jason; Brox, Thomas; Clune, Jeff (2016). Synthesizing the preferred inputs for neurons in neural networks via deep generator networks. doi:10.48550/ARXIV.1605.09304. Процитовано 22 липня 2024.
  18. Arora, Sanjeev; Liang, Yingyu; Ma, Tengyu (2015). Why are deep nets reversible: A simple theory, with implications for training. doi:10.48550/ARXIV.1511.05653. Процитовано 22 липня 2024.
  19. Spratt, Emily L. (2017). Dream Formulations and Deep Neural Networks: Humanistic Themes in the Iconology of the Machine-Learned Image (PDF). Kunsttexte. Humboldt-Universität zu Berlin. 4. arXiv:1802.01274. Bibcode:2018arXiv180201274S.
  20. fosterthepeopleVEVO (11 серпня 2017), Foster The People - Doing It for the Money, процитовано 15 серпня 2017
  21. Suzuki, Keisuke (22 листопада 2017). A Deep-Dream Virtual Reality Platform for Studying Altered Perceptual Phenomenology. Sci Rep. 7 (1): 15982. Bibcode:2017NatSR...715982S. doi:10.1038/s41598-017-16316-2. PMC 5700081. PMID 29167538.
  22. а б Greco, Antonino; Gallitto, Giuseppe; D’Alessandro, Marco; Rastelli, Clara (July 2021). Increased Entropic Brain Dynamics during DeepDream-Induced Altered Perceptual Phenomenology. Entropy (англ.). 23 (7): 839. Bibcode:2021Entrp..23..839G. doi:10.3390/e23070839. ISSN 1099-4300. PMC 8306862. PMID 34208923.
  23. Carhart-Harris, Robin; Leech, Robert; Hellyer, Peter; Shanahan, Murray; Feilding, Amanda; Tagliazucchi, Enzo; Chialvo, Dante; Nutt, David (2014). The entropic brain: a theory of conscious states informed by neuroimaging research with psychedelic drugs. Frontiers in Human Neuroscience. 8: 20. doi:10.3389/fnhum.2014.00020. ISSN 1662-5161. PMC 3909994. PMID 24550805.
  24. Rastelli, Clara; Greco, Antonino; Kennett, Yoed; Finocchiaro, Chiara; De Pisapia, Nicola (7 березня 2022). Simulated visual hallucinations in virtual reality enhance cognitive flexibility. Sci Rep. 12 (1): 4027. Bibcode:2022NatSR..12.4027R. doi:10.1038/s41598-022-08047-w. PMC 8901713. PMID 35256740.

Посилання

[ред. | ред. код]
Зовнішні відео
video icon Deep Dream (Google) — комп'ютерофіл Майкла Паунда(інші мови)