Patchwork Dream

随時、記事の加筆・修正または再掲載します。

検索のすゝめ

―――偉大なるGoogle

Yahoo!は、「人は大体同じ」という世界観を、Googleは「人はそれぞれ違う」
ということを前提にしてサービスを構築しているように感じられる。
言い換えると、Yahoo!は「みんな」を、Googleは「あなた」を見ている。

teruyastar.hatenablog.com

―――ネットで検索すれば知りたい情報が得られる時代

―――情弱にならないために

―――とはいえ情報過多で欲しい情報が埋もれてしまう

「10年前は『自殺 方法』『死にかた』みたいな検索をすると、まさに自殺の方法がずらっと出てきました。しかし今はそうではなく、自殺予防のサイトが出てきたりする。検索に対する結果という意味では、『自殺 方法』で検索したなら、まさに方法が並ぶのが正しい。ですが、もうそのようなことは許されなくなっています。結果として検索エンジンは、単純に回答を返せる状態ではなくなったのです」

bunshun.jp

―――検索で開く新たな世界

―――便利故に自分で考えずとも楽になれてしまう

ノイズ

―――情報過多で飽和状態のインターネット

―――検索上位に出てくる結果が良いわけではない

togetter.com

―――偽情報に踊らされないように

大学ではよくWikipediaの内容は信じるな、参考文献として認められないなどといった旨をよく言われるが、下記QuoraではWikipediaの情報に誤記があり、論文などを詳しく調べてみると検索結果が異なっていたということを証明する内容となっている。

jp.quora.com

―――躍動するAI

openai.com

現状、ネットで調べ物をしたいときは、Googleなど検索サイトを利用することが多いだろう。その場合、検索結果にリストアップされる無数のサイトは、質の高い有用なサイトばかりとは限らない。

 広告だらけで内容が薄いページや、反対に難解なページばかりを引き当て、目的の情報にスムーズにたどり着けなかったという経験は誰しもあるだろう。

 一方、ChatGPTは、質問文を投げかけるだけで、必要な情報を教えてくれる。情報を求めて、複数のサイトをさまよう必要はない。

news.yahoo.co.jp

tasogarech.blog.jp

サジェスト

―――検索エンジンも誤認してすれ違う検索結果

―――どういうアルゴリズムになっているかが不明な検索ワード

「アナルーチンポ子供」検索結果

トップに表示されるWiki記事にはそれらしいワードは引っかかっていないがなぜかこのワードで検索すると闇が深そうな事件ばかりが表示される謎の現象が起こっている。また、当の「アナルーチンポ子供」は何なのかはわかっていない。「アナル チンポ 子供」でも闇が深い検索結果が表示されるようだが、「アナルーチンポ子供」でなければ当Wikiはヒットしないのも謎。ただ「マフラーチンポ子供」でも1ページにWikiが表示される。

tasogarech.blog.jp

検索方法

―――「検索」でわかるジェネレーションギャップ

―――バーティカル検索

―――調べ方を変えるだけで得たい情報を手に入れられる

―――やり方を調べる場合

2chで調べ物をしたい時は「教えてください」って書いても
なかなか教えてもらえない。

そういう時は、知ったかぶり風に間違ったことを自信満々に書く。
そうすると、ものすごい勢いでツッコミを入れてもらえる。

href.li

Twitter

Amazon

スクレイピング

スクレイピングとは、Webサイトから儒法を収集するツール・技術のことである。昔Pythonで情報収集のコードを作ったことがあるが、個人的にはキュレーションサイトで十分だと思っている。

下記『アイデアのすゝめ』で紹介したキュレーションアプリ『Inoreader』が使いやすい。

angrybreakfast.hatenablog.com

Googleアラートでは特定のワードを設定し、RSSリーダー(ここではInoreader)に登録すると設定したワードが出てくるウェブサイトを抽出して新着情報を知らせてくれる。

www.google.co.jp

―――Googleハッキング

Google検索で探し出すことが可能であるものの、本来は公開することを目的としていないデータを探し出す方法を「Googleハッキング」として取り上げた。掲載されているテクニックはNSAによって公開された「Untangling the Web: A Guide to Internet Research」から抜粋したものだと説明がある。

news.mynavi.jp

上記を元に下記のような検索をGoogleに掛けると、数多くの企業のPDFデータを伺うことが出来る。

filetype:pdf intitle:極秘

また、YouTubeで「様 確認用」と検索すると、全員に閲覧を求めるはずではないだろう私的な確認用映像が伺えることがわかる。

jp.scrapestorm.com

―――一歩間違えると違法になることも

なぜスクレイピングが違法になるかと言えば、各ECサイトから情報収集し、買占め・転売、およびアクセス過多によるアクセス障害、収集する情報に著作権が含まれるものがある場合は著作権の侵害にもなり得る。Amazon楽天と言ったECサイトTwitterFacebookと言ったSNS、動画サイトのYoutube、後は株価などの情報に関するデータを載せているサービスがスクレイピング禁止のサイトに含まれる。

☟また下記のようにスクレイピング対策も立てられている。

qiita.com

SEO

―――Ranking the Top 100 Websites in the World

下記サイトを見ると1番にGoogle、2番目にYouTubeがアクセスの多いウェブサイトとなっている(2019年)。

出典:Visual Capitalistより

当然ながらほとんどがアメリカのウェブサイトである。4番目にようやく中国の検索ブラウザBaidu.comが出てきて、以降WikipediaTwitterと続いていく。

―――数打ちゃ当たる

使い捨ての即席ハウツービデオで大儲けを目指すDemand Mediaという記事でレポートしているようなビジネスモデルがある。Demand Mediaは1本20ドルかそこらの最低の下請け賃金で毎日なんと4000本ものハウツービデオをアップロードし続けているのだ。その目的はただ一つ―検索エンジンの上位に掲示されることだ。検索エンジンにヒットしそうなテーマについてのビデオをひたすら大急ぎでひたすら最低の値段で作り続ける。そしてトラフィックで広告収入を稼ぐ。要するにSEO検索エンジン最適化)ビジネスの極端な例だが、これが嘘のように儲かっているらしい。

jp.techcrunch.com

―――文字化けを見ない理由

―――下心がクリック率を上昇させる

―――不都合なサジェストを表示させないチップス

―――炎上ネタはヒットする

インターネットは「内容が面白い記事」がアクセス数を稼ぐ、んじゃないんです。 映画は前払い制だから「面白いからヒットする」のではなく「面白そうだからヒットする」――――と同じような話です。 かつて「個人ニュースサイトさんで紹介されるか」が全ての時代がありました。たった3~4年前の話です。そうした個人ニュースサイトさんは、人力で面白い記事を探して紹介してくれるので、ブログを書く側にも「面白い記事を書けば紹介してくれるんだ」というモチベーションがありました。 でも、Twitterが普及して変わりました。 「扇情的な記事タイトルを付けて」「人気のあるものの“悪口”を書けば」、「そうだそうだ!俺もアレ嫌いなんだよ!」という人も「○○の“悪口”言うな!けしからんから拡散してやる!」という人もリツイートしてくれるので、あっという間にアクセス数が跳ね上がります。 もはやアクセス数に「内容の面白さ」は関係ないし、「内容の正しさ」も「誠実さ」も関係ないんです。

yamanashirei.blog.fc2.com

おすすめサービス

GoogleYouTubeの検索トレンドを調べる場合はGoogleトレンドを使用すればよいが、その他検索の際に特化されたサービスが多々あるので紹介する。

■ラッコキーワード

related-keywords.com

GoogleYouTubeなどのあらゆるコンテンツに対してサジェスト検索、関連文献検索ができるサイト。

■ノイズレスサーチ

pasokatu.com

キーワードだけで引っかかってしまう無関係のサイトやサービスを除外して検索してくれるサイト。検索で欲しい情報を手っ取り早く見つけるのに役立つだろう。詳細は下記のサイトに掲載あり。

主に以下のサイトを検索にヒットしないように除外しました。

   Amazon楽天・価格コム
   その他通販サイト多数
   NAVERまとめ・キュレーションサイト
   知恵袋などのQ&Aサイト
   2ch転載
   懸賞サイト
   動画サイト
   SNSTwitterInstagramなど)
   一部の辞書サイト
   アプリストア

これらのサイトはほとんど検索上位に出てこないはずです。

[…]

いわゆる「ググる」のと「ノイズレスサーチ」を比べてみると、知恵袋・NAVERAmazonなどのドメインパワーが超強いサイトが無くなるので、今まで2ページ目以降にあったレビューサイトなどが1ページ目に表示されやすくなります。

pasokatu.com

―――画像検索

■Tineye

tineye.com

―――アーカイブ検索

Wayback Machine

web.archive.org

サイトのリンクを貼ったりするとそのサイトの過去のアーカイブを閲覧することが出来る。

warp.da.ndl.go.jp

■うぃきったー - wikitter

wikitter.info

どんな記事でもWikipediaは任意のページから6回リンクを踏めば飛ぶことが出来るという実証ができるサイト。

施設利用

■史料室

www.nids.mod.go.jp

国立国会図書館デジタルコレクション

オンライン上で資料の閲覧が可能になる。普通に国立国会図書館の利用者登録をしている人であれば利用登録に同意するだけで利用できるようになる。詳しくは下記のページから。

www.ndl.go.jp

cocolog-nifty.hatenablog.com

参考・関連文献

note.com

brutus.jp

 

以上。