Uusia kuvia tallentaessa pitää tunnistaa onko kuva tallennettua Wikimedia Commonsiin. Tätä varten lasketaan ja tallennetaan olemassaolevien Commons-kuvien phash ja dhash arvot imagehash-kirjastolla tietokantaan. Helsinki rephotographyä varten tehtiin indeksointia, niin käytetään tätä pohjana.
Commonsissa kuvia on noin 93M ja indeksointinopeus tällä hetkellä on 200k-300k / päivä niillä kuvilla jotka tulee cachesta ja vain 20-40k / päivä jos kuvaa ei löydy cachesta, niin aloitetaan indeksointi Finna-kuvien kannalta todennäköisimmistä kuvista.
GitHub: https://github.com/Wikimedia-Suomi/ImageHash-Toolforge
- Toolforge-projekti: Imagehash
- Kopioi Helsinki rephotography -koodit pohjaksi
- Kopioi Helsinki rephotographyn 3M kuvan indeksi vuodelta 2021 pohjaksi
- Github projekti ja sinne ohjeet miten Toolforge-projektia käytetään
- Refaktoroi koodi siten, että se käyttää pelkästään suoria tietokantakutsuja API-kutsujen sijaan
- Indeksointi 1024px koolla pyörimään 24/7 Toolforgessa
- Esimerkkikoodi Pythonilla sille kuinka hakuja tehdään jos on pääsy Toolforgen Tools-tietokantaan
- API-kuvien hakemiselle http-kutsuilla
- Nopeusvertailu analytics vs Toolforge Kubernetes
- MVP web GUI
- Recent changes indexing status monitor/slack alerts if it is broken