[B! crawler] nabinnoのブックマーク

nabinno id:nabinno

crawlerに関するnabinnoのブックマーク (15)

GitHub - fredwu/crawler: A high performance web crawler / scraper in Elixir.
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
nabinno 2017/09/02
github

crawler

elixir

web-crawler
リンク
GitHub - bootjp/crawler: Web pages 404 and soft 404 checker
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
nabinno 2016/04/11
github

crawler

web-crawler
リンク
Meta Webクローラー - シェア機能 - ドキュメンテーション - Meta for Developers
Metaはさまざまな目的のためにWebクローラー(ウェブサイトやウェブアプリからコンテンツをフェッチするソフトウェア)を使用しています。このページには、Metaの最も一般的なWebクローラーを識別するユーザーエージェント(UA)文字列と、各クローラーの用途がリストされています。このページでは、クローラーがサイトと適切にやり取りできるようにrobots.txtファイルを構成する方法についても説明します。 FacebookExternalHitFacebookExternalHitの主な目的は、Facebook、Instagram、MessengerなどのMetaファミリーのいずれかのアプリで共有されたアプリやウェブサイトのコンテンツをクロールすることです。リンクはコピー&ペースト、またはFacebookソーシャルプラグインを使用して共有されている可能性があります。このクローラーは、アプリまた
nabinno 2015/06/25
facebook

crawler
リンク
暮らしの情報サイトnanapiはサービスを終了いたしました | nanapi [ナナピ]
2020年8月31日(月)をもちまして、nanapiに関わるすべてのサービスは終了いたしました。 nanapiは、2009年のサービス開始より「みんなで作る暮らしのレシピ」という考えのもと、ユーザーの皆さまに生活に関する様々な「ハウツー」を投稿していただく投稿型ハウツーサービスとして運営してまいりました。約11年間にわたって皆さまからご支援をいただきサービスを継続できたこと、nanapi編集部一同、心より御礼申し上げます。掲載されていたコンテンツなどのnanapiについてのお問い合わせは、nanapi@supership.jp までお願いいたします。長きに渡りnanapiを応援してくださり、本当にありがとうございました。
nabinno 2013/03/28
seo

masahiro-tsuji

google-webmaster-tools

crawler

error
リンク
404エラーは数が多くてもクロールとインデックス、ランキングに悪い影響を与えない
[対象: 初級] すでに削除したURLに対して大量のクロールエラー（404エラー）がGoogleウェブマスターツールで記録されたとしても、サイトのクロールとインデックス、ランキングに何らかの悪影響が発生することはまずありえません。英語版のGoogleウェブマスター向け公式ヘルプフォーラムでGoogle社員のJohn Mueller（ジョン・ミューラー）氏が次のように説明しています。存在しないURLをリンクが指し示しているとするなら、リンク切れの数はサイトのクロールとインデックス、ランキングに通常はまったく影響しない。ほんの少しであっても何百万であってもだ。リンク切れがあったからといってサイトの質が低いとみなすことにはならない（存在しなくなったURLを技術的に適切に処理しているのだからむしろいい証拠なのかもしれないと個人的には思ったりもする）。 404や410のクロールエラーがサイトの
nabinno 2012/12/10
seo

kenichi-suzuki

404-not-found

crawler

algorithm
リンク
Gungho-0.09008
The London Perl and Raku Workshop takes place on 26th Oct 2024. If your company depends on Perl, please consider sponsoring and/or attending.
nabinno 2012/04/08
gungho

crawler

perl

cpan

module

tools
リンク
froute.jp検索クローラーのご案内
froute-crawler * エフルートでは2006年6月に公開致しましたロボット型クラスタリングエンジン（開発コードネーム：Symphony ）のクローリング (プログラムによるウェブページの自動収集) 情報を公開しております。 * ご案内 froute.jp検索のクローラーとは、携帯上のデータを収集し、幣社が提供する携帯/ページ情報に収集した情報を掲載するサービスです。アクセス制限等を設けているサイトは、あらかじめIPアドレスとユーザーエージェントを開放して頂く事でロボットが巡回し多くのユーザーを目的のサイトへ誘導を行う事が可能となります。 * IPアドレス symphonybot1.froute.jp (60.43.36.253) ※IPアドレスは変更される可能性が有ります。 * User-Agent DoCoMo/2.0 SO902i(c100;TB;W20H10)
nabinno 2012/02/06
crawler

froute

search-engine
リンク
モバイルサイト運用の上で確認すべき3つのこと
モバイルサイトの運用は結構面倒くさいです。「開発も面倒だよね」という声も聞こえてきそうですが、個人的には運用の方が面倒だと思っています。その理由としては、まめな情報収集をしなきゃならんのです。というわけで、以下にチェックしておくべき3つのことを書き出しておきます。ある意味、自分用。キャリアのIPアドレス帯域変更コレ、意外に頻発します。というのも、モバイルサイトって大概がIPアドレスでアクセス制限を行うんですよね。ケータイ以外からのアクセスをさせない目的で。特にキャリア公式サイトの場合は必ずってくらい。で、このキャリアのIPアドレスなんですが、ホント頻繁に変更されるんですよ。追加されたり削除されたり。出来れば変更しないでくれと誰もが思いますが、気付くと変更されるのでコレは定期的にチェックをしておかなきゃなりません。仮にこの変更に対応しなかった場合、何が起きるかというとモバイルサ
nabinno 2012/02/06
mobile

creative

seo

crawler

user-agent
リンク
Googleの検索ボットに偽装すると有料サイトが無料で閲覧できるらしい - GIGAZINE
Googleの検索データベースを作成するためにネット中のあらゆるページを収集して巡回している「GoogleBot」というものがあります。このGoogleBotが来ると検索結果に反映されるというわけ。で、ネット上にいろいろと存在している有料サイトは客を確実に呼び込むため、検索結果に自分のサイトの中身をちょっとだけ表示させるために、なんとGoogleBotは無料で有料サイト内を巡回できるようにしているらしい。ということは、GoogleBotにブラウザを偽装すればいけるのではないか？というのがこのアイディアなのですが、真相のほどはいかに？詳細は以下の通り。 ※以下からは自己責任でお願いします Disguise Yourself As Google Bot - Quicksilverscreen Forum! 実際に試したわけではないので真偽は不明ですが、要するにブラウザの吐き出す変数の一つで
nabinno 2010/07/09
crawler

google
リンク
法と技術とクローラと私 - 最速転職研究会
こんにちは、趣味や業務で大手ポータルサイトのサービスで稼働しているいくつかのクローラの開発とメンテナンスを行っているmalaです。さて先日、岡崎市立中央図書館Webサイトをクロールしていた人が逮捕、勾留、実名報道されるという事件がありました。関連URL: http://librahack.jp/ 電話してみた的な話 http://www.nantoka.com/~kei/diary/?20100622S1 http://blog.rocaz.net/2010/06/945.html http://blog.rocaz.net/2010/07/951.html この件につきまして法的なことはともかくとして技術者視点での私見を書きたいと思います。法的なことは差し置いて書きますが、それは法的なことを軽んじているわけではなく、法律の制定やら運用やらは、その法律によって影響が出る全ての人々の常識
nabinno 2010/07/09
crawler

apache-http-server

robots
リンク
Librahack ：容疑者から見た岡崎図書館事件
出来事の詳細 3/13 新着図書データベースを作るためクローリング＆スクレイピングプログラムを作成したちょうどその頃、市場調査を行うためにECサイトのスクレイピングプログラムを作っていた。そのついでに、前々から構想していたLibra新着図書Webサービスを作ろうと思った。市場調査プログラムの一部をカスタマイズして、新着図書データベース作成プログラムを作った。この時、市場調査プログラムと新着図書データベース作成プログラムは同じプログラム内にあり、パラメータでアクションを指定して振り分けていた。 Webサービスを作ろうと思った動機は「なぜプログラムを作ったか」の通り。 Webサービスの概要は「どんなプログラムを作ろうとしていたか」の通り。普段読む本を入手する流れ：1. Amazonの各カテゴリの売れ筋をチェックしてレビューを確認し読むかどうか決める（または、書評ブログや新聞などのメディアで
nabinno 2010/06/26
law

crawler

security

web-scraper
リンク
岡崎市立中央図書館事件 #librahack について愛知県警に電話して聞いてみた | [ bROOM.LOG ! ]
ニコニコPodder iPhone/iPod/iPad対応ニコニコ動画簡単インポートツール aggregateGithubCommits GitHubレポジトリでのコミット数をAuthor/期間別に集計します probeCOCOATek 新型コロナ接触確認アプリCOCOAが配布するTEKを表示・集計連日Twitterでは #librahack ハッシュが大盛況だが、個人的には事実関係でよく分からないことも多く明白にしたいことではあったので、直接愛知県警に電話して事情を聞いてみました。岡崎署ではなく愛知県警なのは、そちらが事件捜査の主体的な役割を担っただろうと判断したからです。対応して頂いたのは生活経済課の方。お名前は出しません。愛知県警ではこの課がサイバー犯罪を担当しているそうです。担当して頂いた方は割と若めで理路整然と話したいクールなタイプ。多少警戒されて話されていたのが印象によく
nabinno 2010/06/26
crawler

law

security

web-scraper
リンク
https://docs.google.com/viewer?url=http://dutar.ex.nii.ac.jp/sociobiblog/resources/kasmp/3G7-4.pdf
nabinno 2010/04/14
keiichi-soejima

people

blog

seo

crawler

insight
リンク
http://www.botchecker.com/
nabinno 2010/03/30
crawler

seo

tools

analytics
リンク
Yahoo!JAPAN 巡回先へ推薦
もう忘れない！なくさない！　Yahoo!検索で見つけたサイトは、Yahoo!ブックマークに登録！家からでも、オフィスからでも、いつでも同じブックマークを参照できます。
nabinno 2010/01/20
seo

crawler

robot

yahoo

search-engine-submission
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx