Q&A

2024.5に改訂しました。運用に合わせた変更の追加し、また重要な変更は打消し線で変更させていただいております。

ウェブ魚拓って何ですか？
引用って何ですか？
表示中のページを簡単に取得する機能はありますか？
魚拓を期待通りに取得・表示できません（スクリーンショット含む）
必要な動作環境を教えてください
魚拓を削除するには？
削除を取り消したい
削除された魚拓を申請により取得したい
魚拓(キャッシュ）の取得を禁止するにはどうすればいいですか？
「robots.txtによって（中略）取得できません」という表示が出ます
アダルト広告が不愉快です

ウェブ魚拓って何ですか？

ウェブページが消され、評価・議論が不可能になったという経験はありませんか？

ウェブ魚拓は

・ウェブページを簡単に記録して

・ブログなどからリンクを張って利用できる

というサービスです。

引用って何ですか？

引用とは、著作物の利用形態の一つであり、著作権法第三十二条で定義されています。

引用においては、著作権利者の許諾がなくても著作物を利用することができます。

（参考）

- 著作権法第三十二条 http://www.cric.or.jp/db/article/a1.html#2_3e

- 引用の要件 http://ja.wikipedia.org/wiki/%E5%BC%95%E7%94%A8#.E8.A6.81.E4.BB.B6

表示中のページを簡単に取得する機能はありますか？

URLバーの先頭にgyo.tc/と入力下さい。取得確認ページに飛びます。

必要な動作環境を教えてください

主要なウェブブラウザかつ最新に近いバージョンに対応しています。

JavaScriptが有効になっている必要があります。

リファラの送信が有効になっている必要があります。

魚拓を期待通りに取得・表示できません（スクリーンショット含む）

よくある例を挙げます。
・特にストリーミングを伴う動画。こちらは今後も非対応です。
・ログインが必要なウェブページ。
・人間によるアクセスと見なされないような要求を拒否するウェブページ。
・フレームの中。こちらはフレームの中のページを保存してください。
・広告の表示が必須である警告がでるウェブページ
    - これは難しいところですが、広告には資料に無関係な資料です。「広告を表示して取得」のご要望があれば実装する予定です。
・スクリーンショットしか取れない
    - コンテンツ全体、あるいはコンテンツの一部が非常に大きいファイル（圧縮等を試みるまで猶予がありますが、無料版で約30-90MBです）
    - コンテンツ全体合わせてとても回数が多い(3桁後半等)のリダイレクト。
    - その他、レンダリングのエラー。
・スクリーンショットの文字化け
    - スクリーンショットが正式に対応している言語は現状日本語・英語のみとなります
・一部画像等が取れない
    - スクロールによる遅延読み込みがスクロール探索の20000pxを超えても存在
    - レンダリングが難しいHTML（確認ができている中では、一部の要素の背景画像等です）
    - 途中で前述のファイルサイズの上限を超えた場合。
・一時的な障害
・魚拓のアクセスがブロックされているウェブページ
・取得ブラックリスト
    - 日本において配信が不能であるコンテンツが主となっているウェブサイトのページ
    - 過去、SEOなどへ目的として利用された可能性が極めて高いと判断されるウェブサイトのページ
・その他、HTMLのレンダリングが困難で技術的に取得できないサイト
修正をご希望の方はURLを添えてご意見などにご連絡くださいますと幸いです。

何らかの理由で魚拓を削除するには？

該当のページ「削除」ボタンより削除をご依頼ください。
理由が複雑であること、別途弁護士様等を通じご連絡いただく場合などは、直接下記よりご連絡いただくことも可能です。
詳細なお問い合わせはまでお願い致します。

削除を取り消したい

(事件等として処理する場合等による資料請求はこちらを参照ください)

ウェブ魚拓の削除審査には定められた期間中の削除において処理する義務があるため、経緯等の考慮が難しいケースがほとんどです。
リンクを張るだけであっても経緯によっては、名誉棄損や侮辱に当たる可能性もあります。
しかし条件により削除取り消しを行うことができます。
複雑な手続きになりますが以下でURLや経緯を可能な限り詳しくご説明ください。
基本的に現在進行形の議論に限ります。なお、削除の取り消し要望を行った方はその責任を負うこととなります。

削除された魚拓の内容を照会したい

ウェブページのリンクを添えて、よりご連絡お願い致します。基本的に法的な判断が必要な場合に限ります。弁護士様や裁判所からの要請を前提としています。

キャッシュの取得を禁止するにはどうすればいいですか？

以下の方法のどれかを行うことでキャッシュの取得を禁止できます。

(1) 以下のMETAタグをHEADタグ内に書く

meta name="robots" content="noarchive">

(2) ルートディレクトリにrobots.txtを設置して、"Megalodon"が取得不可能なパスを指定する

なお、robots.txtはキャッシュしておりますので、変更が反映されるまで長くて3日かかります。

大変申し訳ありませんが、これらについての技術的な質問はお受けしておりません。

2024.05 robotsによるnoarchive指定で取得を禁止していましたが、取得の際「私はロボットではありません」を設置したことにより人間による取得であるかどうかの判定を高精度で可能としましたため、禁止はされなくなりました。

「robots.txtによって（中略）取得できません」という表示が出ます

そのサイトはキャッシュを禁止する意思表示を行っているため、取得はできません。

平成26年に最終改訂されている著作権法第七章第四条の四で、

「ｒｏｂｏｔｓ．ｔｘｔで情報の収集を拒否するページの情報収集の禁止」が定められています。

ウェブ魚拓では海外の判例を参考に禁止してきましたが、日本国でも正式に禁止される運びとなりました。

2024.05 robotsによるnoarchive指定で取得を禁止していましたが、取得の際「私はロボットではありません」を設置したことにより人間による取得であるかどうかの判定を高精度で可能としましたため、この表示は廃止します。

HTMLコンテンツのSHA256確認の仕方は？

例えばwindowsの場合、具体的にはPowerShellで以下のスクリプトを実行してください。

                
# ファイルパスを指定
$filePath = "ここをファイルパスに置き換える"

# ファイルの内容をUTF-8エンコーディングで読み込む
$fileContent = [System.IO.File]::ReadAllText($filePath, [System.Text.Encoding]::UTF8)

# <!--CHECKSUM START-->と<!--CHECKSUM END-->の間のコンテンツを抽出
$startPattern = "<!--CHECKSUM START-->"
$endPattern = "<!--CHECKSUM END-->"
$regexPattern = "(?s)$startPattern(.*?)$endPattern"

if ($fileContent -match $regexPattern) {
    $extractedContent = $matches[1].Trim()
} else {
    Write-Error "Specified patterns not found in the file."
    exit
}

# 抽出されたコンテンツをUTF-8でバイト配列に変換
$utf8Bytes = [System.Text.Encoding]::UTF8.GetBytes($extractedContent)

# SHA256ハッシュを計算
$sha256 = [System.Security.Cryptography.SHA256]::Create()
$hashBytes = $sha256.ComputeHash($utf8Bytes)
$hashString = -join ($hashBytes | ForEach-Object { "{0:x2}" -f $_ })

# ハッシュを表示
Write-Output "Extracted Hash:"
Write-Output $hashString