◎正当な理由による書き込みの削除について: 生島英之 とみられる方へ:Internet Archive総合 (web.archive.org) #5 YouTube動画>3本 ->画像>69枚
動画、画像抽出 ||
この掲示板へ
類似スレ
掲示板一覧 人気スレ 動画人気順
このスレへの固定リンク: http://5chb.net/r/esite/1690495133/ ヒント: 5chスレのurlに http ://xxxx.5chb .net/xxxx のようにb を入れるだけでここでスレ保存、閲覧できます。
なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
http://archive.org/ インターネット・アーカイブ - Wikipedia
http://ja.wikipedia.org/wiki/InternetArchive ------------------
Twitter
https://twitter.com/internetarchive/ 関連スレ
【保存・記録】ウェブアーカイブ総合 Page.01
http://2chb.net/r/internet/1554553882/ 前スレッド
Internet Archive総合 (web.archive.org) #4
http://2chb.net/r/esite/1628793497/ https://twitter.com/5chan_nel (5ch newer account)
【QA】
Q.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ&文字化けが起きる&極端に重いなどの症状が出てしまう
A.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック
Q.Web Archiveでダウンロードしたzipなどが開けない&CRCが違うと表示される
A.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。
Q.寄付したいんだけど?
こちらから金額,一度きりか毎月か,送金方法を選んで寄付してください
https://archive.org/donate Q.すぐに保存したい場合は?
Save Page NowにURLを入力して「SAVE PAGE」ボタンを押す
https://web.archive.org/save/ Q.アカウント作ったらなんかいいことあるの?
A.ページのスクリーンショットを保存したり、ページの全てのリンク先を保存できる「Save outlinks」という機能が使える
[email protected] にメールでURLを送ったら保存されるの?
A.1週間後に保存完了のメールが届いたり、何も戻ってこない失敗した場合があるので、確実に保存したいなら辞めたほうがいい
Q.インスタのURLが保存できないんだけど
A.ログインしないとコンテンツが表示されない仕様になったので保存自体が無理になってます
Q.robots.txtでia_archiverをDisallowしても無視されるの?
A.中古ドメインでサイト見れなくするやつのせいでrobots.txtを見ない仕様になったので無視されることも従うこともある。保存できることもあるので確認してみたほうが早い
Q.鯖落ちしてる?
A.ここで鯖状態を見れる
https://analytics0.archive.org/stats/wb.php https://archive.org/stats/ Q.Temporarily Offline The Internet Archive's sites are temporarily offline. We apologize for the inconvenience. って何?
A.たまにメンテやってサイト見れなくなることがあるので、待ちましょう。ツイッター(@InternetArchive)でメンテ予告は発表しています
Q.Save Page Nowの制限などの仕様は?
A.ここを参照
https://docs.google.com/document/d/1Nsv52MvSjbLb2PCpHlat0gkzw0EvtSgpKHu4mk0MnrA/edit Q.Save Page Nowで保存完了しても保存されたページが表示されないんだけど
A.完全にページが見れるようになるのと、/*/のページ一覧やカレンダーに反映されるまで時間かかるので最大数日待ってください
ほとんどは数分後には見えるようになってるはず、もしくはウェブブラウザのキャッシュを削除するといいかも
Q.「The capture is estimated to start in XX minutes.」って何?
A.Save Page Nowの保存サーバーの空きがなくて保存処理に時間がかかってる状態、急いでなければあとでやるのも手
Q.The same snapshot had been made XX minutes and XX seconds ago. We only allow new captures of the same URL every XX minutes.
A.同じURLを短期間の間に何度も保存できない仕様になっています、誰かが数分前に保存したか、自分で保存したときに一部の画像がかけて保存されている状態でも表示されることがあります
気になるなら1時間後ぐらいにもう一度保存してください
Q.The server didn't respond in time for
https:// (保存しようとしたURL)
A.極端にページの返答が遅いサイトを保存しようとするとこの表示が出ます、何度かやれば保存できることもあります
Q.「You have already reached the limit of active sessions」が出た
A.同じIPアドレスからの同時保存制限に引っかかってる状態。2021年5月24日以降はログインしていないユーザーは同時保存は3個まで。1分ほど待てば制限解除される
Q.「This URL has been already captured 10 times today. Please email us at "
[email protected] " if you would like to discuss this more.」が出た
A.1日に同じURLは10回まで保存できる制限に達したので、また明日(UTC)
Q.「This URL has been excluded from the Wayback Machine. 」って何? A. robots.txtのブロックや、サイトの運営者や著作権者がドメインやこのディレクトリごと非表示化の申請をした可能性があります、 ただしURLの保存はできますし、将来的にブロックが解除されて見れるようになる可能性もあります Q.「Cannot get status of spn2-乱数」のエラーは何? A.Save Page Nowで保存中にサーバーの状態が取得できなかったときのエラーで、/*/で保存されているか確認して、されてなければもう一度保存してください Q.「404 Not Found」のエラーは何? A.サイトが存在していてもこのエラーが出ることがあります。その場合は時間あけて一度保存してみましょう Q.「Sorry Job failed」が出た A.このエラーが出たとしても一部画像やスクリプトファイルが欠けた状態でページ保存できていることがありますので、/*/で確認してみてください 保存できてない場合はやり直してください
アーカイブ済のURL一覧を出力する方法
1.
http://web.archive.org/cdx/search/cdx?url=example.com*& ;output=txt にアクセス
2. example.comのところをアーカイブしたページのトップページURLに変える。*を誤って消さないようにすること
3. 大量のテキストが出るので全選択してコピー
4. Excel立ち上げてCtrl+Aで全選択して貼り付け
5. 「テキストから列へ」を選んでスペースを基準にセルを区切る
6. セル列のアルファベット文字をクリックしたらその列が全選択になるからURLの列をコピーしてテキストエディタに貼り付けるなりする
同じURLでも保存した時間分の数書いてあるから置換ツールで重複した行を消すこと
IAのURLsでは10000個までしか表示できないがこの方法使ってアーカイブされたURLの正確な総数がわかるはず
WEB版のExcelだと貼り付け時に容量オーバーで受け付けてくれないことがあるからその場合はLibreOffice Calcでも使えばいい
LibreOfficeの場合貼り付け後、表全体の全選択を解除し、1回セルAをクリックしてセルAを全選択した後、データ→テキストから列へ を選ぶことでセル分け可能
引用元:
https://exposureninja.com/blog/extract-urls-archive-org/ http://2chb.net/r/esite/1628793497/332 >>1 おつ
Internet Archive総合 (web.archive.org) #2
http://2chb.net/r/esite/1475246713/5 5 名前:名無しさん@お腹いっぱい。[sage] 投稿日:2016/10/01(土) 04:24:53.46
テンプレのQ&A二件、まだそんなやり方が通用すると思ってる奴いるの?
todayだとヤフーニュースが保存できなくなってる だからInternet Archiveで保存することが増えた 慶応vs横浜だけじゃない…甲子園目指す球児とファンを悩ます高校野球「パイア問題」とは? news.yahoo.co.jp/profile/comments/55eb7cbd-6f69-41ed-ab91-6d7a3ebd5d16
私も19年前鹿児島県大会の夏、三塁塁審の誤審により三点本塁打となり高校野球を終えました。 主将を務めていた私は何度も三塁塁審へ抗議にいきましたが、塁審は「私が間違う訳がない」の一点張り。 その日に放送されたニュースでもしっかりファウルである映像が映し出されましたが判定が覆ったわけでもなく、 むしろその誤審をした審判は今や鹿児島県高野連の審判長まで登り詰めております。 ただ試合後主審の方が私を呼び出し、「審判も人間だから間違うときもあるからね」と声を掛けられました。 誰が見てもわかる誤審であっても審判長にまで登りつめるためには誤審を認めるわけにはいかない、 審判の方々も会社と一緒でそういったなかでされていて大変なのかもしれないとこの歳になって少しわかってきました。 todayでも↑のコメントを保存したかったなあ…
盲人でも野球の審判を業務として行えるという実例ですね
twitterのプロフィールはwaybackmachineで保存できなくなった 個別のツイートは保存できるけど、コメント欄は保存できないし、いろいろ改悪されたなあ
tubeupでひたすらサムネイルだけ上げてる奴って何が目的なんだ? 他の人がアップロード出来なくなるから普通に迷惑なんだが
ニコニコとかYouTubeってarchiveで保存しても動画再生出来ないの?
>>16 自分は魚拓サイト初心者だから専門的な知識とかは余り持ってないけど
IAやtodayでは動画サイトの動画は恐らく保存されないと思う
>>16 >>17 IAはYouTubeだけ特別に動画も保存される仕様になってる
>>14 今はプロフィールも保存できるね(ログインしなくても閲覧出来る)
方針コロコロ変えすぎでわけが分からないよイーロン
動画サイトが動画直リン保存すればいける場合もあんのか
またTwitterのプロフィール取れなくなってるわ あのさぁ・・・
あれ?また取れるようになってるな 非ログイン状態でも見れるプロフィールと見れないやつがある? 条件が分からん
なんかtwitterのプロフィール保存すると、過去ツイがランダムに表示されるだけで、最新のツイートが保存されてない。 もう訳わからんわw
archive.orgって画像複数を一括保存とか出来る? いちいち一つずつURL入力保存しないといけないの?
>>24 Have you ever wanted to archive all the web pages linked from an email message?
Well, you are in luck because now you can forward that email to
[email protected] ”
and after a few minutes you will get an email back filled with Wayback Machine playback URLs.
>>7 >
> サイトの仕様で取れないもの
>
https://ch.dlsite.com/matome 記事本文が取得不可、todayなら取れる
>
https://www.pixiv.net/ 投コメのみ取得可、todayなら取れる
>
↑今春までならtodayで取った完全アーカイブをarchive.orgへ再取り出来たんだが拒否URLにされたのか弾かれるようになってしまった。。
>>29 終了告知から終了まで1か月もないとはひどいサービスだな
Sheetsのbatch処理ここ数日ずっとqueuedのままや そんなに使ってる人おるんか
archiveってpornhubとかエロ動画直リン保存ってしていいの?
>>31 日本語記事も出た
ソニーら音楽各社、著作権侵害でInternet Archiveを提訴。SPレコード2749作品以上をデジタル化・公開
https://www.techno-edge.net/article/2023/08/13/1742.html >>33 internet archiveの規約を見た感じ特にルールは設けられてなさそうだけど、
archive teamによるとコンテンツが削除されたり、アカウントが凍結されたりする可能性はあるらしい
余談だけど、archive teamは元々ポルノはネット上で最も分散保存されているコンテンツだからアーカイブしないという方針だったんだけど
wikiの編集履歴確認したら、今年8月からは通常のコンテンツと同様の扱いにするという方針に切り替えたっぽいな
https://wiki.archiveteam.org/index.php/Porn 最近フラッシュのページのアーカイブ見るとruffleっていうSWFエミュレータが起動してフラッシュを再生してくれるようになったな
xtubeの動画のアーカイブもなんとかなりませんか どうせどっかにあるんだろ
SPN2のAPIのドキュメントに、「anonymous user」って表記があるんだけど、anonymous でAPI叩くには何を指定すれば良いの? authorizationヘッダを付けずにAPI呼ぶと、 "You need to be logged in to use Save Page Now." ってエラーになっちゃう。 anonymousの制約で十分だから、APIキー無しで使いたいんだけどな
>>39 それ、応答を HTML でも返せるところを
Accept ヘッダでわざわざ JSON 形式を要求すること自体が要アカウントっぽいんだよね。
どーしてまたそんな所に匿名ユーザ制限が入ってるのかは解らんけど。
現状のSPN2APIはよく分からん仕様が多くて「痒い所に手が届かない」感じなので あまり深く考えない方がいい
ヤフー知恵袋、SPNだと取れるのにoutlinksの方だけエラーになってるぽいな
ここ最近自動でアーカイブされてないこと多いよな。 御叱りでも受けたか?
ここ数日やけに接続エラーが起きてると思ったらこれなんだよね。
スクリプトは当面 HTTP へ切り替えるかぁ。
>>45 道理で最近つながりづらいことが多いと思ったら・・・
俺環だけではなかったのか
久々に SPN2 API のドキュメントを見返していたら、 /save/ に新設のパラメータがあることに気づいたぁ。 use_user_agent=<XXX> Use custom HTTP User-Agent value when capturing the target page. 2022-07-28 日付けの版で追加されてたのね。
Sorry Job failed と表示されるarchive.orgのページが保存される謎バグに遭遇して笑った ただの表示バグだと思いたい
Atwikiってspn で取れなくなってる? エラー吐いてる
と、何のエラーか説明すらできない言語障碍児が申しております。
おま環じゃなかったか アニオタwiki消えそうだから保存しようとしたんだけどなー Archiveboxで自分でwarc取るしかないか センキュー
HTTP status=403 atwiki側が意図的に排除してる エラー吐いてる、だけじゃ何もわからんな
atwikiって前は取れた気がするけど 方針変えたのか?
Googleだとなぜかhttpの方がインデックスされてるせいで繋がらないな というかいい加減httpからhttpsに転送するようにして欲しい
Internet Archive総合 (web.archive.org) #4
http://2chb.net/r/esite/1628793497/975 975 名前:名無しさん@お腹いっぱい。[] 投稿日:2023/07/24(月) 07:55:27.47
放置してたらURL8万行分集めてて、もう飽きたからこれアーカイブしてdatアーカイブやめます
保存されるやつみたら文字化けしてるし意味あるのかなといった感じでもある
普通の過去ログやる方が有意義におもう
↑エアプ野郎w
http://homepage2.nifty.com/J-R/enjoy%20pich.htm ↑のアーカイブを見ようと思ったら「This URL has been excluded from the Wayback Machine.」となってて、つまり除外設定されてるんだけど
これの理由(誰が、いつ申請したか)を知る事って出来る?
禁止しているドメインの一覧は多分↓なんだろうけど、このページ自体は2019年くらいから作られるし、リストに追記される理由とか何も書いてないから詳しくがわからん
https://wiki.archiveteam.org/index.php/List_of_websites_excluded_from_the_Wayback_Machine 個人が作るHPスペースをまるごと除外設定するのが通るのは、インターネットアーカイブの目的としてもちょっと勘弁して欲しいなあ
個人HPこそ後世に残したい
>>56 > 保存されるやつみたら文字化けしてるし
テキストエンコーディング変換前のファイル見れるだろ
スクリプト回してるのにim_とかid_とか知らないって嘘くせぇ
https://web.archive.org/web/20230711093514im_/https ://2chb.net/r/dat/1608930977.dat
>>57 理由は公開されないけど基本的にサイトの管理者が除外申請した場合だね
確かにアーカイブの目的には反してるが、ここをしっかりしないと著作権侵害で突かれる可能性があるので
あとexcludedであってdeletedではないのでIAには残ってるはず、オンラインでアクセス不可になるだけ
YouTUbeの再生ページがアーカイブされるの遅過ぎだろ。
何やってんだよインターネットアーカイブに保存する人は!全然チェックされてないじゃん!
やる気あんのか?寝てたのか?
どうして誰も保存しないんだ?自動アーカイブはどうした?
ダウンロード&関連動画>> VIDEO ダウンロード&関連動画>> VIDEO YouTubeの再生ページがアーカイブされるのがかなり遅いケースがもう10か月以上も続いている。 公開から10時間後とか。 自動アーカイブはどうしたのか?
5chをアーカイブしてもエラーページになる事が増えたなぁ 重くなってるのか?
一番上に書いてあるvideoとかmusicってなんですか? いろいろありますけど保存してもいいんですかね?
昔と違い私的理由で使う人が多すぎて ゴミ集積場化が止まらない
archive.today繋がらない
おま環?
>>66 たとえばどんなサイトの事言ってるの?
>>64 同感
たとえば「【文春砲】令和の米騒動、現場写真がリークされる」というスレッドも
8月31日の11:32:22は保存できているのに、それ以降はエラーが起きて保存されていない
web.archive.org/web/20230000000000*/
http://2chb.net/r/livegalileo/1693474206 もう「なんでも実況(ガリレオ)」板のスレは過去ログの魚拓とれないのかもな 【悲報】安倍晋三語録、「同意」を表すものが存在しない 2chb.net/r/livegalileo/1693837620 IAではserver errorとなるしアーカイブトゥデイでも「Not Found (yet?)」となる → archive.is/I6WEN
>>71 nova.5ch.net は 7 月から継続的に DDoS 攻撃を受けているサーバのうちの一つ。
その対応で、おそらく日本以外の IP 向けに L4 レベルのアクセス制限を掛けている。
http://2chb.net/r/operate/1673084281/16- >>73 なるほど
確かにエラーが起こるのはnovaが多かったな
永久に解除されない、なんてことにならなきゃいいが・・・
【悲報】17歳の上玉白人美少女ちゃん、交通事故の罪で終身刑を言い渡される 2chb.net/r/livegalileo/1693978274 このスレもサーバーエラーで魚拓とれなかったからグーグルのキャッシュ経由で魚拓とった archive.li/pGUd4
家のWi-FiでCONNECTION REFUSEDしか出ないから試しに携帯回線につなぎ替えたら普通に繋がった。 手動で取ってただけでアク禁にされたのか
>>76 それ、一週間前にうちもやられた。
仕方なく筑波 VPN 挿して、同じようにガンガン回したけどそっちは止められることが無かった。
何が引っ掛かったのか、全くもって判らん。
前スレのころ20分ぐらいつながらないことがあったが、 それ以上に長くつながらない・・・
twitter、じゃなくてX取れなくなってるな 個別のポストはtodayの方で辛うじて取れるが
twitterで良くね Xとか勝手に名称変えたアホ以外誰も言ってねえわ
ジャスコ、ダイエー、サティ、ダイヤモンドシティ、イオン、
前スレ955への返信だがグーグルキャッシュなどを経由すれば
好き嫌いドットコムのコメント欄も魚拓とれる場合がある
webcache.googleusercontent.com/search?q=cache:syMmr8fOqbkJ:
https://suki-kira.com/people /result/%25E3%2582%2586%25E3%2581%259F%25E3%2581%25BC%25E3%2582%2593
>>76 アク禁にされたっぽい
保存はやってなかった、心当たりがあるのは多数の保存済みアーカイブを一斉に開いただけ
ツイートと付随する動画像をCSVでまとめて落とせる国産ツールない? イーロンになってからアーカイブサイトにいれるだけじゃ不安だから、自前で持っておいて必要に応じてアップできるようにしたい
Batch process Google Sheetsがabort出来ないバグ何とかしてくれ 相手側に負荷がかかってたらどうすんだよ
5ちゃんも有料化云々でヤバそうだし スレアーカイブしといた方が良さそうだな… そろそろ消えそうな予感
いつ復旧するかなー
Attempts to archive this video failed. はなんなんだよ
savepagenowを実行したあとにgoogleのサポートページ?に飛ばされるのはどういう仕様?
twitterの記録取れなくなるのは将来に禍根を残すと思うわ。 数百年後に歴史を振り返った時にSNSは史料的な価値があると思う。
今のツイッターって?failedScript=vendorつけても無理になったの?
teacup. byGMOレンタル掲示板あんま残ってねえな
>>99 現役鯖の分はまだ落ちてくるけどなぁ
http://2chb.net/r/1628/1628793497.dat /oyster/ 以下のディレクトリインデックスが掘れなくなってはいるが
Sorry Cannot resolve host ipv6.icanhazip.com. IPv6 の名前解決ができなくなってる
Wi-Fiに切り替えたら繋がった。 どうやらアク禁らしい。 普通に閲覧してただけだし、何も心当たりないんだけど…
>>106 えっ、そうなの?
とりあえず今はアク禁解除されたっぽいけど、
アク禁になる条件って、短時間にたくさん見るとか?
人間レベルの閲覧でアク禁になるなんて聞いたことないが ただの勘違いじゃないの?
画像が大量にあるページでそのほとんど取れてなかったりするとすぐ開けなくなる
>>109 > 画像が大量にあるページでそのほとんど取れてなかったり
その取れてない画像、全て/save/にリダイレクトされてるから
結果として大量にアーカイブ要求を発行することになるんだよね
んで、その時にアーカイブされるのは3つ程度であとは全て429エラー
運が悪いとそのままアク禁
>>99 過去ログについては一応、2chSCへも殆どがミラーされてるはずだけどな…。
油断は禁物 あとpink系は全部だめ 5ch新設板系も全部だめ
scはクロールされてるなと思って後で確認すると途中でクロールが止まってそのままというのがかなりある こういう状態になるとクロール再開しないケースが多く5ch側が飛んだ時に頭のほうしか控えが取れてなかったりする
過去ログ、今年中は見れない可能性あるらしいな・・・
0119Ace ★
2023/10/13(金) 09:40:26.65ID:CAP_USER
過去ログについてですが、現状はアーカイブ圧縮状態で
展開再配置は相当に時間がかかる見込みです。
完了は年を越す可能性もあります。
http://2chb.net/r/operate/1697113482/119 たまに総アーカイブ数が294 billionって表示されるの何なんだ?
>>112 一応なんG板とか、2014年春以降に新設された板でもSC側のbbsmenu一覧ページに追加されてないだけで、
[
http://tomcat.2ch. (えすしー)/livegalileo/ ]
…の鯖名から開けばアーカイブされてたりするけど、PINKともども最近の過去ログについては本鯖のモノが未だ活きてる。
>>107-108 残念ながら自分も・・・
前は20分ぐらいつながらなかったのが、
最近は締め付けが厳しくなりそれでは済まないレベルに
>>107-108 残念ながら自分も・・・
前は20分ぐらいつながらなかったのが、
最近は締め付けが厳しくなりそれでは済まないレベルに
こんなのがいつのまに
2022年11月18日 23時00分レビュー
無料&広告なしで個人サイトを作成できるGeocities風サービス「Neocities」を使ってみたよレビュー
https://gigazine.net/news/20221118-neocities-free-website/ 利用者の多いコンテンツの生殺与奪を特定小数人が握ってるのは危なっかしいよな
http://2chb.net/r/mnewsplus/1698901347/ まあつべはバックアップを隠し持ってそうだけど こんな金になりそうなもん手放さねえだろうし 一般人が直に利用できないだけで
日本の書籍が著作権ありのもたまにいいのがアップされてたのが、騒動以後いっこもアップされなくなったなあ 結構暇つぶしにいいのに
質問です ・今開いているサイトの魚拓をワンクリックで取る方法はありますか? (いちいちInternet Archiveのサイトを開いてコピーしたURLをペーストして決定を押すのがちょっと面倒です ) ・サイト全体(orサイトの複数ページ)を自動で保存してくれる機能はありますか?
アクティブチーム何やってんだよ。
なんで下記のURLは誰もアーカイブしてないんだ?
ダウンロード&関連動画>> VIDEO アクティブチームw
どうしてもすぐにアーカイブしたい動画があるならtubeupを使って自分でうpするか Yt-dlpを使ってメタデータを含めてローカルに落とすのが理想や!
ArchiveTeamは特定の動画(削除の危機がある, ニュース, 政治etc)に限定して保存してるから、保存したい動画は手動保存する必要がある
リソースは有限だからね
↓詳細
https://wiki.archiveteam.org/index.php/YouTube#Scope Wayback Machineに保存されてるそこそこ古めのページを表示すると、一部の画像が表示されない事ってよくあるよね。
あれって何でああなってるの?たとえば以下のページなど。
https://web.archive.org/web/20021017173116/http ://www.namco.co.jp/home/cs/lineup/mrdriller/page01.html
このページは2002年保存だけど、比較的新しい2010年とかに保存されたページでも同現象になってたりする。
当時保存した人も、ちゃんと保存できてるか確認して、当時は問題なく表示されてたんだと思う。
今俺たちが保存してるサイトも、10年後には画像がところどころ抜け落ちて不完全な状態になるのかと不安。
>>134 そもそも Internet Archive でヘッドレスブラウザを実装したのがほんの数年前のことで、
それまでは指示された単一のファイルをアーカイブするだけだったから。
アーカイブされた HTML をクライアント側のブラウザで表示したときに
個々の画像等の保存リクエストが Internet Archive へ発行されるような実装が
なされたこともあったが、それ自体も 2010 年代中盤だったはず。
そうかなぁ?
俺はInternet Archive側にある画像ファイルが何らかの理由で勝手に消滅したと思ってる。
以下のサイトとかもそう。画像が1つも保存されてないのはおかしいだろ。
https://web.archive.org/web/20131007222449/http ://www.spike-chunsoft.co.jp/fr/index.html
>>137 それ Alexa のクローラが保存したアーカイブだしw
昔のエッチサイトで自分が見たいところだけ抜け落ちてる悲しみ(´・ω・`)
IAのアーカイブって色んな団体のアーカイブがまとまったものだからな、SPNなんてごく一部だよ 画像も収集してる団体もあれば、HTMLだけを取得してる団体もあるのでアーカイブ次第 例えばウェイバックマシンを使ってるとよく目にするCommon Crawlはほぼ画像が取得されてない
確実に保存したい時は InternetArchiveとArchive.todayどっちもアーカイブしてるわ それで大体残ると思うけどどうだろ
>>141 それで精度だったり保存量にばらつきがあるんすね
ここ最近自動アーカイブがされてないようだけど一体どうしたんだ?
えっ?年齢認証のページも保存できたの?初めて知った。
以前、以下のページを保存したかったけど諦めたんだ。
https://www.konami.com/games/pcemini/jp/ja/ もしこのページ保存できるなら、上部メニューの8ページほど保存しといてほしい。もしくはそのAPIの使い方を具体的に教えてほしい。
まだ誰も上手く保存できてないみたいだし。
>>149 確認できたわ、ありがとう!
Internet Archiveを極めてるね!
If something goes wrong please click here to send us an error report. ってやつ、下じゃなくて上に配置してくれないかな・・・ 何回誤送信したか分からん
twitter保存できないことが最近増えてるみたいだけど、archivetodayでも保存できない場合は、cacheリンクをぶち込むと保存できるでー
twitter以外の保存できないサイトも、
https://webcache.googleusercontent.com/search?q=cache: 保存したいリンク
をWabackmachineに入れればキャッシュを保存できる。
リダイレクトページを保存して過去のアーカイブ上書きして使いづらくする問題 なんで放置されてんだよ!
俺も基本nitterキャプってるなTwitter取得する時は
"The requested video has been archived but is not currently available for playback."と"Attempts to archive this video failed."が出たときが一番ダルい
イーロン・マスクのせいで、1tweetごとにarchiveしないといけなくなったけど、 より問題なのは、tweet群が本人の削除やアカウント停止などで消されてしまったら、 archiveがあってもtweet同士のつながりがわからなくなること。 以前はtweetを1カ所か何カ所かwayback machineで押さえれば、スレッド丸ごとarchiveできたのに。
何度保存しても「Hrm. The Wayback Machine has not archived that URL.」が出続ける。
>>160 ほんとゴミだよな
戻してくれないもんかね…
>>161 > 何度保存しても
数日後、その何度も保存したのが一斉にカレンダーに登場するパターンw
SPNって一日1000ページ保存が上限なのか。初めて引っかかった。outlink込みでやってたからか。 あと最近頻繁にログアウトしてしまうんだけどこれも不具合なのかな。
どっとうpろだ.orgサービス終了かよ 知らなかった
忘れた頃に消えてくれるからお世話になったなぁ・・・ 長いことおつかれさんでした
普段は「Not Found」が出ても何遍か更新すると正常に戻るが、今は何遍更新しても・・・
マジか。保存対象URL側に問題あるのかと諦めて魚拓で済ましたけどIA側の問題だったのか
URL側の場合は「Not Found」というか普段から「このURLは保存不可」的なのが出るが、 今はどのサイトを入力しても「Not Found」
JSON で user status を得ようとしても 503 が返る
逝っちゃってるねぇ
https://web.archive.org/save/status/user 今日朝からnot foundだったから来てみたらおま環じゃなかったか
ようやくできるようになったが、4時間待ち(待ち時間は環境によるだろうが)
復活したけど、これじゃ今日のページ存できないな The capture will start in ~7 hours, 39 minutes because our service is currently overloaded. You may close your browser window and the page will still be saved.
待ち時間未明よりは減ってるが、まだ1時間待ち(環境によるだろうが) ただし、PDF絡みの取得は問題なし
ページを保存しようとしたら
The capture will start in ~3 hours, 5 minutes because our service is currently overloaded. You may close your browser window and the page will still be saved.
と言われて、まだ終わらないけど、MP4動画単体を保存したら瞬時に保存された。
2023/12/03(日)19:39:14
URL:
Job:
https://web.archive.org/save/status/spn2-a3a61ee7a77e38b016777f4e7c9b1139d337b0d8 [success][0.29s][初]
成功:
https://web.archive.org/web/20231203103915/https ://video.twimg.com/amplify_video/1727180400236417024/vid/avc1/1280x720/WJL1FSGpy8aLWnvc.mp4 - 2023/12/03(日)19:39:15
>>183 .jpg とか .png とか .zip とか、ヘッドレスブラウザでレンダせず
ファイル単体を保存するだけで済むものはそんな感じ。
.pdf も outlinks の走査はされるけど何故か速い。
でた蔵の過去のテレビ番組のアーカイブ2022年12月以前の削除されちゃったんだな、最悪 gooといい価格コムといい削除するなら最初から公開しなきゃいいのに NHKも一時期過去の番組表見れないようにしてたし何の目的なんだろうな 維持するのも金がかかるのかねえ
更新終了および閉鎖のお知らせ
2017年7月より更新を続けてきたウェブメディア「wezzy」ですが、2023年12月31日をもって更新を終了する運びとなりました。長年のご愛読ありがとうございました。
2024年3月31日にサイトの完全閉鎖を予定しております。
https://wezz-y.com/archives/95862 更新終了および閉鎖のお知らせ
2017年7月より更新を続けてきたウェブメディア「wezzy」ですが、2023年12月31日をもって更新を終了する運びとなりました。長年のご愛読ありがとうございました。
2024年3月31日にサイトの完全閉鎖を予定しております。
https://wezz-y.com/archives/95862 こんな糞重いクルクルクルクルしてるだけのゴミクズサイト すでに2億円も寄付されてるの糞受けるな 裏金アベノイミン党みたいな連中だ
Not Found The requested URL was not found on the server. If you entered the URL manually please check your spelling and try again. saveできない また逝ってるのかな
やっと復旧した
┃ 午前9:18 ・ 2023年12月6日
┃
https://twitter.com/textfiles/status/1732192819098292677 ┃ Jason Scott @textfiles
┃ Power has gone out at the @internetarchive primary datacenter; waiting for it to return.
┃ 午前10:04 ・ 2023年12月6日
┃
https://twitter.com/internetarchive/status/1732204429066289608 ┃ Internet Archive @internetarchive
┃ Sorry,
http://archive.org and
http://openlibrary.org will be back in a few,
┃
┃ but a short term power outage was long enough to make recovery take a little while.
┃
┃ We apologize.
https://twitter.com/thejimwatkins あ゙あ゙あ゙あ゙あ゙ーーー
ここ何日か
>>195 のような表示がそのときそのときで出たり出なかったり
取得そのものができないよりは増しとはいえ・・・
>>196 やっぱそうだよね、自分の環境のせいかと思ってたけど
11 時間 42 分経過、結局アーカイブされてなかったからリクエスト発行し直した。 てゆーか 10 時間とか 20 時間とか言われても、数分後に同じ URL のアーカイブを 再リクエストしたらタイミングによってはすぐ保存してくれることもあるので こういう時はやり直すのが正解だと理解することにした。
緑色の一日おき程度に取得した不完全なのを見かけるけどこういう事象の跡なのね
Save outlinksで取得出来るページ数減らされてる…
まあここ最近、調子悪いからな。 しばらくすれば元に戻るかも。
Sorry
You cannot make more than 100 captures per day. Please email us at "
[email protected] " if you would like to discuss this more.
なんかめちゃスムーズにspnリクエスト送れるようになってる 昨日ぐらいまでめっちゃ糞詰まり起こしてたのに
>>205 アカウント作れよ、上限が 300 倍に増えるぞ
てゆーか登録ユーザの daily_captures_limit の値、30000 まで減ってるのな
Sorry Job failed ってIAの画面がアーカイブされてる?ときって失敗ってことなんかな
>>208 自分の経験ではアーカイブできてる事も失敗してる事もある
そういう時は web.archive.org/web/2/ に対象の URL を付けて
最新のアーカイブを表示させてみてる
せっかく
>>206 と思ったら今度は・・・
今までの1割とは落差がでかい
何回やってもどのサイトでもsorryになって保存できない
ろくに英語も読めないのにここでアーカイブ取ろうとしてるからだよ
?
日本語のサイトしか保存した事ないけど…
つか1日100件なんて保存してないのに⇓が出る
前にキャッシュcookie消去したらarchiveでの履歴も消えちゃったから消すの嫌なんだけどなあ
Sorry
You cannot make more than 100 captures per day. Please email us at "
[email protected] " if you would like to discuss this more
100件も取得してなくても出るとか・・・ますます謎
>>214 > 2023/12/13(水) 08:59:55.49
カウンターがリセットされる時刻の 5 秒前w
昨日の分も一緒にカウントされてるんじゃないの
>>215 214だが、
>>213 と同一ではない
こっちは100件超えてたからまだしも、
>>213 のようなこともあると驚いたまで
>>207 同時実行可能なセッション数も微妙に調整してますね
2023/02/18(土) {"available":6,"daily_captures":0,"daily_captures_limit":100000,"processing":0}
2023/08/21(月) {"available":6,"daily_captures":0,"daily_captures_limit":80000,"processing":0}
2023/09/06(水) {"available":6,"daily_captures":0,"daily_captures_limit":70000,"processing":0}
2023/09/29(金) {"available":8,"daily_captures":0,"daily_captures_limit":70000,"processing":0}
2023/11/23(木) {"available":8,"daily_captures":0,"daily_captures_limit":50000,"processing":0}
2023/12/12(火) {"available":7,"daily_captures":0,"daily_captures_limit":30000,"processing":0}
「日付」が切り替わってカウント数が0に戻るのは日本時間朝9時です
無いね ページ内で使われてる画像なんかには送られてるみたいだけど
nitter.net保存できなくなってる。 nitter.czならtodayの方で保存できるが
Twitterはもう保存できなくなったのか? 保存した後、だいぶ経ってから保存されているはずの日付を見に行ったら中身が何もない。 そういうのばかり。
Twitter側の仕様変更のせいで見た目はアーカイブできなくなった ソースを見るとツイート内容はアーカイブされてるっぽい
本家のtwitter.comも、nitter.netもウェイバックマシンでは保存できなくなってる。 今は、nitter.czをarchive.todayの方にぶち込むしか方法がない。
今でも更新続ければ保存はできるけど、数日待たないとできなかったりで安定はしない
登録しても制限をかけるなら、有料プランを導入してくれ
最近すこし保存しようとして更新するとすぐアク禁されて駄目だわ
アク禁ってされたことないんだけど、どんな表示でるんだ
アク禁ってされたことないんだけど、どんな表示でるんだ
>>231-233 相手サーバが無反応になる
何も返らないからブラウザ組み込みのエラーメッセージが出る
2〜3秒に1回位のアクセスに抑えておけばまずアク禁はされないと思うが
アーカイブチームの皆さんは自分の事しか考えてないの? あれだけ顧客第一つったろ!
>>236 アーカイブチームって覚えられたんだw
すごいね
次はアーカイブチームとインターネットアーカイブは無関係って事を覚えような
https://archive.is/rt7gI Archive.org is DOWN for everyone.
SPNとSPN-outlinksで結果が変わるの謎過ぎるな SPNだと取れるのにoutlinksの方はエラーが出るサイトがたまにある わざわざ別の環境使ってるのか?
一時間くらい前、ぐるぐるアイコンを表示したままリロードを繰り返す状態だったな。
アーカイブ開こうとすると実アドレスの方に飛ばされる症状が出てる アーカイブに保存された形跡はある ただこれも保存済みアドレスが検索で出たりでなかったりがある
相変わらずこの時間帯の Tor 経由でのアーカイブは厳しいw
あと 15 分待つか
既出だったらスマン アーカイブされたページ自体をユーザ側のアクションで検索エンジンのインデックスに登録することって可能なんかな 検索してみるといくつかの日本のサイトのアーカイブがGoogleにインデックス登録されてるんだよな でもWaybackが自分でクロール申請したはずはないから何か方法があるんじゃないかと思ってる 例えば自分で立てたサイトにアーカイブへの直リンクを貼っておいて、自分のサイトをインデックス登録してリンク先をクロールさせるとか
うまいことpixivのアーカイブ取る方法はないものか
うーむ
特定のホストにて、各 URL につき「一時間以上空けろ」ではなく
「一日一回のみアーカイブ可」ということか。
ちなみにホスト名は www.sqlite.org。
昔このスレに居たスポーツ新聞野郎なら発狂してる事案w
>>18 によるとYouTubeは動画も保存される仕様とのことだけど
その仕様になったのは最近?
6~7年前にアーカイブされたYoutubeページに辿り着いたら
動画部分は保存されていなかった
ログインしても数個取るとすぐログアウトさせられるのはおま環?
クッキーを消した、有効期限切れ (一年間)、それ以外の原因でのログアウトは無いな。
>>254 動画によって保存されてたりされなかったりする、基準は分からん
why:のところにyoutubecrawlが無いスナップショットは動画が保存されてない
初めて目にしたかも
IAで、ディレクトリ内のファイル名に対して検索をする方法ってある?
IAで、ディレクトリ内のファイル名に対して検索をする方法ってある?
>>263 リプありがとうございます。
せっかく教えてくださったのに、自分の説明が足らなくて分からなかったのですが、やりたいことはこんな感じです
たとえば、↓のshow allを開くとディレクトリ内のコンテンツが表示されますが
その中のG71-VNW1013.isoを検索して見つける事はできますか?
https://archive.org/details/msi-afterburner-driver-and-utility https://archive.org/search に入力して検索をした場合、タイトルや説明欄しか拾わないので
どうしたものかと思っていました
ファイル名での検索が可能なら、例えばこんなアップロードは
もっと閲覧数が増えているのではないかと思います。
https://archive.org/details/vps0000000000020160306 >>265 そっか…ありがとうございましたm(_ _)m
検索システムはもっと強化してほしいよなぁ 一度も閲覧されてない化石と化したアーカイブとか大量にありそう まぁあまり強化するとDMCA案件が増えそうなので悩ましいけど
ログインしても同時保存制限厳しい…(4つまで) あと、一気にまとめて取得する方法ってないの?一個一個やってると面倒臭い
>>268 [email protected] に電子メールを送信/転送するとメール中のURIをアーカイブした結果のメールが数~数十分後に返信されてくる
「ウェブ魚拓」や「archive.today」では保存できるのに「wayback machine」ではできないということは、
Xは「wayback machine」を嫌がっているということか?
ウェブ魚拓
https://megalodon.jp/ archive.today
https://archive.md/ >>272 保存した日付のところを見に行った?
たとえばこれ。
Saved 1 time January 13, 2024.
https://web.archive.org/web/20240000000000*/https ://twitter.com/BasedMikeLee/status/1745945126793626064
https://megalodon.jp/2024-0117-2350-04/https ://twitter.com:443/BasedMikeLee/status/1745945126793626064
https://archive.md/clxnV https://twitter.com/thejimwatkins 「保存」は出来てるよ、表示が崩れてるだけ CTRL+Uでソースを見ればツイート内容は保存されてるのが分かる
https://web.archive.org/web/20240117173332/https ://twitter.com/googlejapan/status/1747091305128477149
これなんかは動画まで含めてちゃんと取れたことを確認した
https://twitter.com/thejimwatkins インターネットアーカイブのブログ、ずっと同じ糖質に粘着されてるの笑う それでも削除しないのは流石だがw
スラドのアーカイブを取ろうと思ったら、このサイト記事一覧ページって無いのか? ajaxでmore moreで辿るしか無いんだろうか・・・ もう終わりだよ
おっとそれは一昨日だったw
PC を UTC タイムゾーンで動かしているのでうっかり・・・
>>273 https://web.archive.org/web/20240126113327/https ://twitter.com/s96shiho/status/1723541214925029490
これもそうだけど、スマホでなら見られるのにPCだと見られないのはなぜだろうか?
>>275 それはPCでも見られた。
https://twitter.com/thejimwatkins >>279 すごい、ありがとう!
そのURLは気付かなかった。
しかし、ページングは無さそうだから1日1リクエストとしても日記タレコミ記事で3*365*年数 か・・・。
月曜日に発表があって週末が1回しかないって急すぎるよ。 しかもスラドってコメント欄がperlのajaxで読み込んでるからアーカイブだとまともに表示できないだろうし
[email protected] に取得したいページのURL送ったんだけど、ほとんどError! Capture timed outになる・・・
これってサーバー重くて失敗したのかな?
Save Page Now browser crashed なんかエラー吐いて来るね・・・ 取れてる奴もあるけど違いがわからん
それ Linux バイナリをアーカイブさせると良く出くわすな。 force_get=on を指定すると問題無く行けてるから、おそらく コンテンツをヘッドレスブラウザでレンダしようとして失敗してるんだと思う。
Srad はアーカイブチームが動いてるって見たけど 個人でバックアップしている人もおるんか
スラド閉鎖撤回したな まぁ不安定な状況である事には変わらないからアーカイブはした方が良い
The capture will start in ~1 hour, 1 minute because our service is currently overloaded. また1時間後とか言われるようになっちゃった・・・
個人的に巡回ソフトでアーカイブ出来てたシンプル極まりない頃が懐かしい
Save Page Now browser crashed ヤフオクのページを取得しようとすると出る
アーカイブしても画像が保存されないのキツイな 昔から収集方法変えてないみたいだけど 運営陣は変えるつもりないんだろうか 色々相性問題とかあって変えられないのかな?
【2020 年頃まで】
画像の保存は完全にユーザ任せ
(クローラを使っていたり、或いは
普通のブラウザでも保存開始後にすぐ閉じたりすると保存されない)
【それ以降】
ヘッドレスブラウザを実装、ある程度の画像は同時にアーカイブできるようになった
>>293 の言う昔って、いつの話よ?
動的サイトを取ろうとして取れないと勘違いしてるパターンじゃない? 画像は4年前から取れてるし、最近だと自動でアウトリンクまで辿ってくれるようになってるが
Tor を使っていると、本当にいろんな体験ができるw
この時の出口ノードは 🇳🇴 185.243.218.61。
Google検索のキャッシュリンクが廃止で過去のページが閲覧不可に
https://pc.watch.impress.co.jp/docs/news/1566730.html >Googleは、検索結果ページで利用できたWebページのキャッシュへのリンクを削除した。
これまで検索結果の各Webページのキャッシュにアクセスできるリンクが用意されており、Webページの過去の状態や削除される前の状態などが確認できたが、このリンクが削除されたかたち。検索演算子「cache:」を使ったアクセスはまだ行なえるが、将来的にはこちらも利用できなくなる予定だという。
これにともないGoogleでは、キャッシュへのリンクに代わって、Internet Archiveへのリンクを追加したいとも考えているという。
オープンになったことで話題のBlueskyはarchive.todayで昔のTwitterみたいにスレッド丸ごとアーカイブできるようだ。 ところがWayback Machineでは保存できないみたい。
>>300 IAにリンク貼るならGoogleから多額の寄付金もらえそう
とうとう古い端末から Archive.md が開けなくなってしまた。
>>300 回線が重い時テキストだけ読むので重宝だったのにGoogleキャッシュ廃止メチャク不便やん。
流れをぶった切って済まんが
https://download.sysinternals.com/ 配下の URL にて
>>251 に遭遇。
ソフトウェア配布サイトをターゲットにした措置だとは思うが
Sysinternals のようにファイル名にリビジョン番号を記載せず
同じ URL のまま中身を差し替えていくサイトでは、
短期間で更新が繰り返されると保存されないリビジョンが出てくる。
This URL has been already captured 6 times today, which is a daily limit we have set for that host. Please try again tomorrow. 10回制限からなんか減った?
6 回バージョン登場か。
>>305 その後ろの関係詞節、高校辺り出てれば充分読めると思うが?
中卒は知らん。
>>306 いや以前は10回制限だったのに6回になったなってだけ
>>307 個別に 1 回だけとか 6 回までとか指定されてるホストが出てきてるんだよ、
だから関係詞節も読めと言ってるの。
Wayback Machineってdoc形式のファイルやdocx形式のファイルも保存できるんだね ホント便利だな
一日一回のみとか10回のみのエラーってAPIドキュメントには無いよね? 特別に指定されてるんだろうか
X(twitter)はnitter.czにリンクを変えて、archive.todayにぶち込んで保存してる。 他にも方法あるかもしれんけど
そういやnitterの開発終了したんだってな 今のところ動いてるインスタンスはあるけど、これからどうなんだろ
これからどうやってtwitter保存すればいいんだろう
youtubeの動画保存って無くなったのか? youtubecrawlのコレクションは増え続けてるから動いてるはずなんだが、未だに保存されん・・・ 国内メディアのニュース動画だからブロックされてる訳でも無いと思うんだがなぁ
>>281 が PC でも見られる、ってことは保存し直しの必要は無しか。
しかしアーカイブの表示内容が変化するってのは、別の意味で気持ち悪い。
今もだけど、たまにアーカイブ数が減るのは何なんだろうか しばらくすると元に戻るけど
ヘッダー部分の下からが表示されないんだねど自分だけかな。キャッシュ消したり再起動しても直らん
>>321 サイトが重いとそうなる
その場合でも
https://web.archive.org/save に直接飛べば保存できたりする
ブルースカイは、アカウントの設定(ログアウトしたユーザーからの可視性)よっては取得できないから注意
セッションハイジャック耐性の無いサイトなら capture_cookie パラメータ辺り使えば行けるんだけどなぁ
数日前からtodayの調子が悪くて調べたらcloudflareDNSと相性悪いのか
ページを保存させて完了画面も確認したのに、そのページが表示されないな カレンダー形式の一覧に反映されるまでにはこれまでも時間がかかっていたけど 保存ページ自体が数十分待っても出てこないのは初めて
今もう一度見てみたら、既にカレンダー形式の日付には青丸が付いているのに さっき保存した保存時刻(UTC)をクリックしてもその内容が表示されないという現象が起きてる
i.imgur.comのページは一瞬で保存できるのなんでなんだろ
>>329 1. 対象 URL に HEAD リクエストを投げる。
↓
2. レスポンスヘッダから単一の画像ファイルであることを検知。
(Content-Type: image/jpeg 等)
↓
3. ヘッドレスブラウザは不要と判断、後回しにせず即アーカイブ作業に移る。
対象が HTML の場合は後回しにされることが多いが、おそらく
ヘッドレスブラウザで HTML をパースして追加の画像等を拾ってきたり、
JavaScript を実行させる必要があるなど負荷が重いから。
HEAD リクエストが送られる件については
>>3 のドキュメントの force_get の項を参照。
ニコニコ動画のフォロワー欄が途中までしか保存されない問題ってどうすれば解決できますか?
www.nicovideo.jp/user/23396749/follow/follower
https://archive.is/4Efzj 上記のユーザーならフォロワーは僅か40なので情報量が大きすぎるという訳でもないはずなのですが
>>332 >>73 >>333-334 capture_outlinks=on にしても全然 outlinks を拾ってくれないね、それ以外は知らん。
https://nova.5ch.net/livegalileo/ https://nova.5ch.net/novatr/ 各板のトップは国外から見られるが、個別スレを開こうとすると 520 エラーが返る。
Internet Archive のサーバは米国にあるから当然エラーとなる。
>>331 じゅんじゅ@\( ・ω・)/ www.nicovideo.jp/user/41124243
元グリーンベレー user/13675361 ・ lalala user/2765923
蘭‐Ran‐ user/18878661 ・ めざすくん user/27507212
わるよい user/3953893 ・ ゆ〜の user/2915294
sou user/11352489 ・ モッチチ user/6511183 ・ 海鼠 user/4114082
ビタミーナ王国物語以外でイモグラなんてワードを見かけるとは夢にも思わなかった
imgur 画像のリファラ検査が始まり、直リンが禁止されてアーカイヴできなくなった。
↓
https://imgur.com/8oRShxz ページ内の埋め込み画像はリファラが送られるが、この URL では駄目。
↓
https://imgur.com/8oRShxz/embed この URL のアーカイヴを保存させればよい。
↓
結果
>>342 その方法を今試してみたけど保存できてないよ。
保存したファイルと元のファイル比較してみれば分かるけど解像度もファイルサイズも違うしURL末尾辺りに謎の小文字lが付加されてる。
>>343 あーほんとだ、気付かんかった
8oRShxz
8oRShxzl
何か良い方法は無いかな
dotupがやたらと嫌われてたけど俺はimgurの方が嫌いだわ( ´_ゝ`)
Loadingでずっと進まないんだけど
今archive.todayってTwitter保存できないの?
archive.orgの方は出来るみたいだけど
アドレスが長くなるからtodayの方を使いたい
>>342 関係ないけど
リファラ検査で出始めたJaneのimgurサムネイルエラーは
http://2chb.net/r/software/1708963746/185n で回避した
NHKが運営するネット上の特設ページ、続々と運営終了。放送法改正を見据えた動きか
https://internet.watch.impress.co.jp/docs/yajiuma/1577805.html 2024年4月1日10:00をもちまして、以下特設ページの掲載を終了(番組ストリーミングを含む)いたします。(NHKゴガク)
https://www.nhk.or.jp/gogaku/ NHK、「政治マガジン」など6サイト更新停止へ 新サービスを検討(朝日新聞デジタル)
https://www.asahi.com/articles/ASS375VHPS36UCVL04P.html NHKやばいな。どんどんデジタルサービス終了させている。声調確認くんとか、凄く良かったのに。デジタル頑張っていた中の人たちが気の毒。(Togetter)
https://togetter.com/li/2334548 特許や意匠権の参考文献にURLが記載されてる事って多いんだけどさ 昔のホームページだと404かつ何処にもアーカイブされてないとかざら何だよな せめてその辺は国がアーカイブしないと将来的に困ったことにならんのか?と思う
>>349 この国の政府って困ったことに未来にも過去にも興味が全くないですよ
>>352 これ特許庁自体は保存されてるけど、参考文献URLまで保存されてるってどこかに書いてある?
なぜか "Save Page Now" の前のアイコンが
https://archive.org/about/404.html へリダイレクトされてしまっている。
15分くらい前まで繋がってたけど今は繋がらないね、Temporarily Offlineだからメンテ中かな
503エラーちょこちょこ出るけど、復帰したね乙でした
Queue-Itの待合室経由みたいに、いったんリダイレクトされてJavascript動作してから本サイトにリダイレクトされるようなサイトはどうやってアーカイブするの? save page nowではなくて、自PCでアクセスして表示したページをそのままアーカイブできる機能とかあればしりたい。
詐欺紛いのサイトがアーカイブを徹底的に拒否しているのは笑える
https://www.sotwe.com/DuceTCG >>360 拒否してるのはサイトじゃなくてTwitterWebViewerの方だった。俺の勘違い
imgur、画像の直リンは無理だとしても postpagebeta=0 というクッキーを食べたことにして
こういうアーカイブを取れば行けるなぁ。
つまり capture_cookie パラメータを使用。
https://web.archive.org/web/1/imgur.com/EwuqXZU これは失敗。
https://web.archive.org/web/1/imgur.com/sBfrwVv imgur でアダルト判定を食らった画像を表示させて "Yes, I'm over 18" をクリックしたときに追加されるクッキーの中に
over18=1 ってのがあるけど、それも食べたことにすれば行けるかな。
どうも postpagebeta=0 のクッキーだけ送っておけば、
リファラ無しの画像直リンでも OK っぽいな。
>>367 スクリプト使うのも Save Page Now のページを使うのも、やってる事は全く同じなんだけど
後者では入力できないパラメータを送る必要があるんだよね。
https://web.archive.org/save/ を表示させて、次のブックマークレットで入力欄を追加してから
上の欄に imgur の画像 URL、下の欄に postpagebeta=0 を入力してボタンを押せば
たぶん保存できる。
https://pastebin.com/uEZ1Dbqi >>368 サンクス。保存できたっぽい
こんな荒技があったとは
>>368 保存できていたのに保存できなくなったぽい?
えっ
imgur の画像直リンが、クッキーを付けてあってもリダイレクトされるようになってしまったかも。
それでも拡張子の無い
https://imgur.com/xxxxxxx 形式の URL を
クッキー付きでアーカイブさせれば、画像にはリファラが送られるので保存はできている。
Resources (ページ内画像等) としてアーカイブされた URL がカレンダ表示に登場するまでに
時間が掛かってる
APIでリファラも送れるようにしてくれないかな cookieやUAは送れるのにリファラは対応してないの何で?
間違った転送先を保存してしまい何故か修正できないヤツ
https://web.archive.org/web/20240407072915/https ://i.imgur.com/UtKDI8X.jpeg
アニメ絵と実写エロ注意
大文字小文字違いかw uTKdi8x UtKDI8X
archive.today 数日前からX(旧Twitter)のアーカイブできなくなってる?
>>377 自分も、ここ最近X(旧Twitter)のアーカイブが取得できなくて困ってる。
Not Found The requested URL was not found on the server. If you entered the URL manually please check your spelling and try again.
またイモグラ保存できなくなったんじゃないだろうな もうイモグラは使わないでくれ
ふむふむ
OutLinksを使うと保存できてる時もあるっぽいな。 これが原因か?
いや関係無いっぽいな。 試しにスクリプトが上げてるグ□画像を保存してみたらOutLinksなんて無くても一発で取れた。 取れる画像と取れない画像があるのか?
ゲッ、いつの間に同一URLの保存回数が一日5回までに減ってやがる…
https://web.archive.org/web/0im_/https ://files.catbox.moe/xei3k9.PNG
19年の頃は保存回数制限もなく保存再開出来る時間も10分間隔だったんだがなぁ…
>>385 >>305-308 さらに少なく、一日一回だけに制限しているホストもあるからね。
保存回数上限がホスト毎に決められているけど、回数はURL毎に数えているってことか。
自分がアーカイブを取ってるサイトは大概 1 回だけなんだよなぁ。
そろそろやばいやばいっていわれてるけど、Archive.liがなくなる事ってあるのかね。 そもそもあいつの資金源どうなってんだ?
運営費がかさむかさむって言ってたし、ロシアでの運営じゃ厳しいだろ。 国を出ないなら、このまま吹き飛びそうだな。
【質問】Wayback machineで既に誰かがウェブサイトをアーカイブしていたときサイトのアーカイブは更新されるのか 拡張機能web archivesでwayback machineを選択する→既にアーカイブされている1年前のものが表示される 画像などが保存されていないので現在の最新の状態で完全なものをアーカイブしたいんですが可能なんですかね?やり方がわかりません gyazo.com/2dea0146024edc6952878c8d25b9b572
Wayback machineで除名を申し入れされたとして、 それはそのウェブサイトは見かけ上保存はできてそうなんだけど閲覧できないだけ? そのドメインを後から手に入れる事ができ、除名を解いたら、それまでに保存を要請してきたウェブサイトを見る事ができるようになると?
Wayback machineで除名を申し入れされたとして、 それはそのウェブサイトは見かけ上保存はできてそうなんだけど閲覧できないだけ? そのドメインを後から手に入れる事ができ、除名を解いたら、それまでに保存を要請してきたウェブサイトを見る事ができるようになると?
アーカイブチーム、いや、いつもアーカイブしている人たちは全員本当にやる気を感じない YouTubeの動画のページが公開された時、すぐに保存されないケースが多いし。
>>395 「アーカイブ」ってまだちゃんと覚えてられてるんだw
>>130-131 https://www.courts.go.jp/app/files/hanrei_jp/995/088995_hanrei.pdf グリーの弁護士、Wayback MachineのURL日付部分を日本時間基準だと勘違いして日付が一致しないとか言ってて草
検証の部分でUTC時間だから問題ないとちゃんと反論されていてよかった、ついでに裁判も負けてる
てかメンテの表示出てるじゃん。今夜はもう無理かな。
>>391 URLをそのままSPNで保存すればいいよ。そうすれば日付違いで保存されて表示されるはず。
>>392-393 前のドメイン権利者が除外要請を出した時と連絡先など一致してなかったり譲渡されたと嘘付いても、解除通るの?
>>395 ArchiveTeamの巡回を待ってるなら、自分でSPNから保存したほうが早いよ。動画ファイルも半分ぐらいの確率で保存してくれる。
削除予告が出ていて緊急なら#down-the-tubeのチャットで理由書いてコマンド打てばいい。量が多いと完璧に保存されないけど失うよりはいいし。両方やっとけば残る確率高くなる。
>>396 てか
>>130 で文句言ってるXGeNeLWnYdcの動画ファイル保存されてないね。昨日試しにSPNで保存したけど1日経ってもファイル保存されてねえわ。
てかメンテの表示出てるじゃん。今夜はもう無理かな。
>>391 URLをそのままSPNで保存すればいいよ。そうすれば日付違いで保存されて表示されるはず。
>>392-393 前のドメイン権利者が除外要請を出した時と連絡先など一致してなかったり譲渡されたと嘘付いても、解除通るの?
>>395 ArchiveTeamの巡回を待ってるなら、自分でSPNから保存したほうが早いよ。動画ファイルも半分ぐらいの確率で保存してくれる。
削除予告が出ていて緊急なら#down-the-tubeのチャットで理由書いてコマンド打てばいい。量が多いと完璧に保存されないけど失うよりはいいし。両方やっとけば残る確率高くなる。
>>396 てか
>>130 で文句言ってるXGeNeLWnYdcの動画ファイル保存されてないね。昨日試しにSPNで保存したけど1日経ってもファイル保存されてねえわ。
>>387 そういえば、ちょっと前にyoutube.comの1日の保存上限で8万回?ってエラー出てた。2年ぐらい前にエラー出た時はもっと数字が大きかった気がするけど。
確実に保存したいなら上限がリセットされるはずの日本時間午前9時から早い者勝ちで保存するしかないみたいだが。
>>401 130の動画なら保存されてるのでは?
youtubecrawlのコレクションに入ってるが
Tor Browser が Internet Archive の .onion 版が利用可能と検出してるけど
繋がらないんだよね・・・コード 0xF2 のエラーが返る
https://archive6zg5vrdwm4ljllgxleekeoj43lqayscd4d4kmhnyblq4h3ead.onion/ >>403 今見てみたら、動画ファイルの保存まではできてないみたい。
確認用コード
curl -I "
https://web.archive.org/web/2oe_/http ://wayback-fakeurl.archive.org/yt/img/XGeNeLWnYdc"
ターミナルで動かしてヘッダー部分だけ取得すると、転送先の動画ファイルURLがlocation:として出てこないで404エラーになってる。
保存されていればgooglevideo.comの長いURLが出てくるはず。保存されるまで何度かSPNで保存繰り返せばいいけど。
>>403 今見てみたら、動画ファイルの保存まではできてないみたい。
確認用コード
curl -I "
https://web.archive.org/web/2oe_/http ://wayback-fakeurl.archive.org/yt/img/XGeNeLWnYdc"
ターミナルで動かしてヘッダー部分だけ取得すると、転送先の動画ファイルURLがlocation:として出てこないで404エラーになってる。
保存されていればgooglevideo.comの長いURLが出てくるはず。保存されるまで何度かSPNで保存繰り返せばいいけど。
Save Page Now browser crashed on
https://imgur.com/p5BPbjq. 何回か連打してればバックグラウンドで保存に成功するケースが殆ど。
archive.todayってMicrosoftのサーバー経由してるのなんで? MSのサーバーをhostsで遮断したら保存できなくなった
全然違うfaviconが表示されるのってなんなんだろ
なんだこのエラー? task_id must not be empty. Got None instead.
archiveのアニメをWEBで見てたがすごく遅くて適当にVPNで日本で見たらすぐ見れた IP規制してる??
X(twitter)やインスタを保存するのにオススメの方法があったら教えて。
すみません。 twitterアカウントを削除する前に、ツイート削除した場合、該当のツイートは見ることできますか??
>>415 スクショ
WEBアーカイブ
>>416 見れない
しかし動画や写真のURLさえわかればツイート削除後でも一定期間閲覧可能
Amazonの商品ページの過去を見ることできますか?
/save/status 以下の状態取得 API が生きてたりしてるけど他は 503 まぁそんな事もあるさ
現在503になって繋がらないけど他の方々はどうだろうか?
最近archive.orgは繋がらないことが多いな imgurの直リンはarchive.orgでは不可だったけど archive.todayでは問題なく撮れた ここ今、運営が頭狂でURLが貼れなくなってるね
>>185 https://kakaku.com/tv/ テレビ紹介情報は2024年5月30日をもちましてサービスを終了いたします。
アーカイブ必須だな
Yahoo!テレビの番組コメは長年特別扱いのテレ東もしっかり叩かれてたのが良かったのに3月で終わってしまった
昨日繋がらなかったのはどうやらDDOS攻撃食らってたからみたいね
https://gigazine.net/news/20240528-internet-archive-under-ddos-attack/ そして今現在また503や504になってるがまたDDOS攻撃食らってるのか…?
今日は増しだと思ったら結局 もはや「まぁそんなことも」なんてレベルではない
>>430 https://x.com/internetarchive/status/1795451463465845141 Internet ArchiveのTwitterを見れば状況が判ったな
archive.orgで撮れなくてarchive.todayで撮れるサイトが近頃多い
Instagramもarchive.orgでは不可だったけど
archive.todayでは問題なく撮れた
>433 使い方の差ではあるのだろうが個人的にはwebarchiveで出来てtodayで出来ない点として ・大容量zip等とかが保存可能かどうか(todayじゃそもそもzipどころかmp4やmp3すら保存出来なかったような…) ・検索エンジンで足がつくか否か(todayの場合割りと簡単に足がつきやすい) ・そしてwebarchiveで言う所のSave outlinks機能があるかどうか というのが引っかかってね…(ほぼ鯖側に負担がかかるのばっかじゃねえかって話ではあるが…)
today運営の素性がわからんしいつ消えるかもわからんしなー
>>427 ギャーーーー!!これ今知った!!!
こういうのも貴重な情報だったのに…なんてこった。・゜・(ノД`)・゜・。
でた蔵はちょくちょく、表からのリンク先のページが無かったりするし
起こされた内容もだいぶ偏ってて不完全なのがどうもなあ…
wayback-gsheetsにアップデートはいってて驚いた
>>434 archive.orgで撮って
撮れなかったらarchive.todayを使ってる
todayで撮れてorgで撮れないってどうなのかなって
>>435 それが問題
魚拓サイトなのに魚拓サイトが消えたら元も子もないw
todayはドメインが代わったりして大丈夫なのか感がある
archive.todayはURLがarchive.orgみたいに長くならないのが
5chなんかで使う時には良かったりもする
archive.orgを利用してて思うのは、
全く同じキャプチャが重複して何個も何個も撮られてて無駄だなって事と
セーブ時のSave error pages (HTTP Status=4xx, 5xx)の☑はデフォルト外しといた方が良いんじゃないかって事
>>439 具体的に言ってくれる?
参考にしたい👁
todayのURL、916132832超えたらどうなるの
>>441 アルファベットが6桁になる、今の所は半分程度が使用されてるって数年前のブログに書いてた気がする
てかtodayって毎月30万近くかかってるらしいんだが、どうやって個人で維持できてるのか謎すぎるな・・・
度々すみませんm(_ _)m 一部のツイートを削除してからTwitterアカウントごと削除した場合、waybackmachineに収集されていれば削除した一部のツイート内容も見ることできますか??
>>443 削除前に保存されてれば見れる
ただそのツイートのURLが分からないとダメなので、URLを忘れたら事実上誰も見れなくなる
少なくともXに関してはtodayで取れるようになった
https://archive.is/XV7ro Web.archive.org is DOWN for everyone.
えっちなコンテンツが後世に残らなくなってしまう・・・
そろそろアップデートして欲しいなぁ、今風のサイトは取れないのが多くなってきた
archive.todayでもTwitter(𝕏)が
>Something went wrong. Try reloading.
で記録されてしまって撮れなくなった模様
Twitterは、archive.orgで撮ってたのが見れなくなってたりしない?
表示されないのが多過ぎる気がする
Facebookは
archive.todayは撮れて
archive.orgでは撮れなかった
>>449 以前は普通に撮れてたのに
現在は撮れないサイトが多すぎるんだヨネ
特殊な構造のサイトが増えているということなんだろうな
Save Page Now could not capture this URL because it was unreachable.
youtubeの動画は取れてるんだけど、コメントが全然関係ない動画のやつになっている
>>448 別にその方面に限ったことではない
>>456 後で無事取得できてるならまだ良いが、取得できてなかったら悲惨
無くなる前にアーカイブ
過去ログ見れなくなる前にやっとけばよかったんだがね
無くなったら無くなったでURLがわからないと辿れないから
過去ログβが無くなったら辿るのが困難になるのが困るな
一周回ってリンク集の需要が高まるかもしれない
Twitterのプロフィールまではいけるんだが、そこから画像欄とかいいね欄が見られないのは仕様? Something went wrong. Try reloading.のエラーが出て不便
ここもかぁ
見たいWebページが「404エラー」になっていたとき、元のページ内容を見る方法はないの?
https://otona-life.com/book/235219/ ファイルの形式による一日の保存回数制限。
10分前から 「Sorry Cannot start capture」 10分ぐらい前までなんてことなかったのに突然
自作のスクリプトはこんなこと言ってたな。
API が返した JSON の一部の値を印字しているだけだが、メモリオーバーか?
いま再度試したらアーカイブに成功、復活したか。
ダメだこりゃ
https://archive.is/ey7zy onion版も試してみたが同じ画面になった
まだ Sorry Cannot start capture のままだな
俺もSorry Cannot start capture
取得に失敗したurlもデイリーリミット300にカウントされるようになってて草 40台しか取れてねえ笑
>>477 画面をキャプチャしたところで "Cannot start capture" 以外は何も判らないから
JSON 拾って来いよ
リンク集は自分で持ってないと困る& 冗長的に野に放たれてないと価値がない& リンク先消されたらあまり意味がない インターネット暗黒時代近づいてるというかもう既に始まってるのかもしれんな アーカイブも1個や2個じゃ足りないだろ 国は頼りねえし明日はどっちだ
始まってるな 右から左にコピペしたかのようなキュレーションブログの乱立と 誤情報や嘘、政治的活動で溢れるSNSの台頭
既存のブログやショッピングサイトなどをコピーしたものにマルウェアを仕込んでいる外国ccTLDのサイトとかもだな そんなのが検索サイトで検索結果上位に出てくる始末
今必死にフォレストページの好きなサイトアーカイブしてるけど、一日200回の制限がキツいわ...
>>482 200回って縛りプレイ?大変だね
こっちは既に322回、一日40000回の制限なんて到達したこと無いw
スプシでアウトリンク有りにして1000個くらいアーカイブすればあっという間に5万件の制限かかるぞ
>>484 アウトリンクってjsとか画像とかしょっちゅう取り逃がすからあんまり使えないよな
ページの数が多かったらだるいけどそうじゃないなら適当な拡張機能でページ内のリンク全部取得すればいいだけだから使いようによってはかも アカウントにあまりあったから482のやつ手伝おうかと思って試したんだけど、検索結果にでてくるHPがおくれて描画されるせいでアウトリンクにかからないのがしんどくてやめた 数千ページもちまちまURL取得するわけにもいかんし こういうときにささっとスクリピングのスクリプト書いてURL取得するスキルが有ればずっと楽なんだろうけどね(泣)
>>489 Save Page Now 2 Public API の User Status 応答の変遷(日本時間午前9時過ぎ)
2023/02/18(土) {"available":6,"daily_captures":0,"daily_captures_limit":100000,"processing":0} この日から記録を始めた
2023/08/21(月) {"available":6,"daily_captures":0,"daily_captures_limit":80000,"processing":0}
2023/09/06(水) {"available":6,"daily_captures":0,"daily_captures_limit":70000,"processing":0}
2023/09/29(金) {"available":8,"daily_captures":0,"daily_captures_limit":70000,"processing":0}
2023/11/23(木) {"available":8,"daily_captures":0,"daily_captures_limit":50000,"processing":0}
2023/12/12(火) {"available":7,"daily_captures":0,"daily_captures_limit":30000,"processing":0}
2023/12/17(日) {"available":8,"daily_captures":0,"daily_captures_limit":50000,"processing":0}
2024/02/24(土) {"available":7,"daily_captures":0,"daily_captures_limit":40000,"processing":0}
2024/02/29(木) {"available":7,"daily_captures":0,"daily_captures_limit":30000,"processing":0}
2024/03/14(木) {"available":7,"daily_captures":0,"daily_captures_limit":40000,"processing":0}
イモグラはどうでも良いグロ画像をキャプチャしたら取れた。 肝心なヤツはいつも取れない
どうなってんだこれ
5ch取ったらitestに飛ばされるようになったのか
数時間前にアーカイブを表示しようとURLを検索したら503エラー。今も直らない
wayback-gsheets のキューが進まない。。。
hpの方に詳しい情報を載せてる作者もままいるから損失もそれなりの規模だなぁ なんもかんもなくなる日本
あら?503になって繋がらない… onion版も一昨日から繋がらないしどうしたんだろ…
ふむふむ
除外URLって異議申し立て出来ないの? noteとかメルアドが漏洩した当時はログを消すのは理由があったけど 今でも出来ないのはビジネスの都合なだけじゃん
>>512 著作権があるから無理、ただでさえIAはギリギリの所に居るのにやる意味ない
グレーゾーンを超えたらどうなるかは例の出版社からの訴訟を見れば分かる
まぁどうしても保存したきゃ手間がかかって七面倒な上に証拠能力としての価値はスクショ同然になる問題点はあるがmht保存機能やらを使ってページをローカル保存して足が付きにくいように無関係な適当なファイル名やらに変更した上で難解なパスワード入れて圧縮したzipやら7zやらを適当なロダに上げて直リンをwebarchiveや20MB以内ならウェブ魚拓に保存すると言う奥の手も無くもない。
重いからか知らんけどCollections情報見えないな
xを保存したいんですけど、archive.orgは方法ありますか? archive.phはいけるんですけど…
今はarchive.phへ取ったTweetのURL( archive.ph/〜 )で、再びorgへ取れるようになってるんじゃない?
・・・今春辺りまで1年以上、ph内のアーカイブ済みページはorgへ再取り出来ない不便が続いてたみたいだけどさ。
ページ取得ミスする頻度が最近高すぎる・・・ そのくせに再取得まで時間空けなきゃいけないから面倒
Archive制限が多いな、結局mdへ取るしかなかったり。
https://www.itmedia.co.jp/news/articles/2408/01/news124.html カカクコムは8月1日、アニメやゲームなど“アキバ系”のカルチャーを紹介する情報サイト「アキバ総研」を9月30日に終了すると発表した。
2002年8月の開設から22年の歴史に幕を閉じる。
終了後、記事やレビュー、投票など各種コンテンツはすべて閲覧できなくなる。
https://akiba-souken.com/article/66874/ >>525 元々アキバ総研の使ってた古いドメインは( http://akiba.kakaku.com/ )。 しかし最古のTopアーカイブが2007年なんで、もっと前はさらに別かな? 《 アキバ(秋葉原)の最新情報がわかる!アキバ総研 http://web.archive.org/web/20070112154118/http ://akiba.kakaku.com/ 》 >>529 J-Sky H" Palm PDA Lモード って時代を感じるな…
YouTubeで消えた動画見ようとしてもCookieの認証が云々って出てそこから進めないんやが Cookieはどうやって対策するのか、誰か教えてくれると助かる
再生画面すら保存しきれていない動画で 動画本体までアーカイブされているもんかねぇ
【 ■5ちゃんねる■過去ログ・過去ログ倉庫■運用情報・不具合報告■ http://2chb.net/r/operate/1697962402/ 93 名前:[sage] 投稿日:2024/03/07(木) 13:54 ID: http://2chb.net/r/kankon/1369777130/ だめだ みれない 97 名前:[sage] 投稿日:2024/03/08(金) 14:12:29.76 ID:zwv+kDuO0 >> 93 http://mimizun.com/log/2ch/kankon/1369777130/ 120 名前:[] 投稿日:2024/04/02(火) 13:04:41.44 ID: ジムが何年前のインタビューで匿名掲示板バブルは過去の話しだと語っていたから今の5chでは現状維持が精一杯で過去ログ復旧にまで回せる資金はないだろね 153 名前:[sage] 投稿日:2024/05/01(水) 15:59:47.12 ID: みみずん検索で我慢だな 】 最近サ終したサイトってでんファミwiki以外になにかある?
トップにリダイレクトされるのって仕様?
https://web.archive.org/web/20240803200528/https ://akiba-souken.com/vote/v_1111/
>>537 つまりリダイレクトされちゃうからアーカイブとってもweb.archive.org上では閲覧できない?
>>538 ページ内画像が低質化してしまったり省略されてしまう場合があるけど文章メインで読めりゃいいならCano-Lab等、PC2m系の携帯端末変換スクリプトを通すなり…。 強制リダイレクトを弾ける(無力化)ブラウザがあれば素で開けるだろうけど ――― http://www.cano-lab.org/pc2m/pc2m.php?_ucb_c=300&_ucb_v=2&_ucb_u=https ://web.archive.org/web/20240803200528/https://akiba-souken.com/vote/v_1111/ http://www.cano-lab.org/pc2m/pc2m.php?_ucb_c=300&_ucb_v=2&_ucb_u=https ://akiba-souken.com/vote/v_1111/ CloudFlareの認証画面を使うサイトも増えてきたなぁ Cookie送れば突破出来るんかな、めんどい・・・
>>539 uBoでweb.archive.org##+js(aopr, String.fromCharCode)のルール追加して対処しました!
>>537 いま見直したら行番号が違うな・・・
広告ブロッカーの手が入ったキャッシュを見てたのかも、まあいいや。
>>541 location.host みたいな、オリジンサイトとアーカイブとで値が変わるプロパティの参照を
検出させた方が良いように思えます。
>>540 DLsiteやDMMの18歳以上バナーをすり抜ける手段とかもな。
強制リダイレクトはYahoo!内のページでも発生することがあったり
>>536 disable javascriptすれば見れるけど…
なんとかサイト一覧をアーカイブしたいサイトメモ
2024/09/30 閉鎖 アキバ総研
>>524-527 2024/12/20 閉鎖 vectorの作者個人ページ
>>505 archive.todayが一部の回線やブラウザを使うとアクセスできないかwelcome to nginxになる状態なんだけどこれどういう状態なんだ…
>>549 welcome to nginxになった時は
archive.todayのCookieを削除すると直る
.zipとか取得しようとするとそうなる
>>549 archive.today は、Cloudflare DNS Resolver の利用を拒否しているのでDNSの設定を自分でいじったのなら他に戻す
>>551 ,552
ありがとうクッキー消したら一旦は普通にアクセス出来るようになったわ
ちょくちょくタイムアウトするのはまた別の問題かしら
あと特定のサイトの画像を保存しようとするとまたwelcom to nginx状態になった
>>549 > archive.todayが一部の回線やブラウザを
>
取得済みアーカイブを開く時にブラウザUAが Internet ExplorerだとTopへ飛ばされるんで他へ設定変えなきゃならなくなってる。
IAで、久しぶりにとある人のアカウントを見に行ったら Uploadsの欄にThis patron has not uploaded any items yet.ってなってるって事は 全部消したか、消されたかってことなんかな? 他のタブを見るとReviewsには1件レビューの履歴があったけど、それだけだった
なんじゃこりゃ
https://web.archive.org/web/0im_/https ://files.catbox.moe/wcihet.png
このReportボタンって機能してるの?
押しても反応ないんだけど
いまは一分間に 8 件までアーカイブできるのね。
ここしばらくちゃんと取得したページが表示できるようになるまで1週間以上かかることがザラ
ミルダムって今見てきたけど、アーカイブは元々ほとんど残らないのかな? 何人か見たけど、アーカイブ 動画が0件の人ばっかり。 一人だけ2週間分のアーカイブが残ってる人が居たけど、そんな訳ないし
2024/09/01 閉鎖 ミルダム
https://support.mildom.com/hc/ja/articles/36550955435161 2024/09/30 閉鎖 アキバ総研
>>524-527 2024/12/20 閉鎖 vectorの作者個人ページ
>>505 しかも閉鎖がほぼ10日後?急すぎるし・・・
ミルダムって初めて聞いたw 運営企業とか辿っていくと、単にチャイナリスクが発現しただけにしか見えんな
復帰して個々のアーカイブは表示できるようになったけど
アーカイブ一覧を表示させようとするとエラーが返る
オリエント工業が廃業とのこと。
https://web.archive.org/web/20240822083754/www.orient-doll.com/newsSingle/?no=436 昨晩よりテキトーに巡回してアーカイブをとってみたけど、取りこぼしがあるかも。
年齢認証が入ってるので、個別の画像などを除きそのままでのアーカイブは不可。
Web ブラウザで認証を通した後のクッキーを capture_cookie に喰わせれば行ける。
30 分くらいの無通信でセッションが切れるので、その場合は再認証の必要あり。
Save outlinksにチェックを入れてsave pageするとJob failedになるくさい? 表向きはログが残らないどこぞの生まれたばかりの掲示板のスレを元画像ごと保存しようとしたら上記のエラーになった… Save outlinksが導入された当初は垢無しでも出来たのにどんだけ鯖への負担になってるのよこの項目
>>591 outlinksに関係なくJob failedになるよ
最近は不安定
Job failed と unreachable は数分おきに同じリクエストを繰り返したら だいたい 3 回か 5 回くらいでアーカイブ成功するね
wayback-gsheetsはまあまあ問題なさそう
>>595 すげーな
こういうのどうやって調べるんだ?
自分のアーカイブする時の参考にしたい
>>596 過去のURLは
>>529 ,527 に書いてあって
後はその中で最古の記事はどれか、最後の記事は何かをチマチマ調べただけ。
"2011年" "アキバ総研" でググったり。
あと、↓のapiでarchiveされてるURLの一覧がドメイン指定で一気に取得出来るから、それをローカルでDBに突っ込んでURL一覧を眺めながら過去どんなサービスがあったのか調べた。
http://web.archive.org/cdx/search/cdx?url=akiba-souken.com&output=json&limit=10&filter=statuscode:200 APIの仕様は以下のページ。
https://github.com/internetarchive/wayback/tree/master/wayback-cdx-server limitパラメーターを外すと全件出力されるから、curlとかでローカルにファイルとして保存して、それを色々解析するのがいいと思う。
>>597 APIあったんだな知らなかった
ありがとう
大昔の5ch過去ログも無料では復活しないかもしれぬから、みみずん鯖で保管されてる分だけでも一括アーカイブされればいいけど…。 《 携帯5chブラウザ ぬこ Part181 http://2chb.net/r/chakumelo/1721834468/ 186 名前:携帯電話情報通知[] 投稿日:2024/09/01(日) 22:38 ID: 久しぶりに過去ログ見ようと思ったら、5chサーバ混雑またはサーバ落ちのため、レスを取得できませんでした。しばらく待ってリロードしてください。ってずっと出てくるんだけどもう見れないの? 192 名前:携帯電話情報通知[sage] 投稿日:2024/09/02(月) 06:41 ID: >> 186 大昔の分はヌコの過去ログ検索でも板の綴りとスレッド数字列まで判明するから mimizunサービスにバックアップされてれば見れる。まあ実況系板はかなり補完漏れ生じてるようだが 〈 WOWOW 17 http://mimizun.com/log/2ch/weekly/1058205020/ 〉 》 いつの間にか2chの過去ログ見れるところが無くなってるんだよな
5ch公式はシステム作り直してます乞うご期待!とか年単位で言ってるし
他の過去ログサイトは全部潰れたし
こういう時にこそscの出番だろ と思って初めてアクセスしたけど、嫌儲みたいな人が多い板はともかくマイナーな板は繋がりもしなかったから全然駄目だ
http://2chb.net/r/operate/1697962402/ >>524 ニュース WEBメディア「アキバ総研」が9月30日でサービス終了へ、惜しむ声続々
WEBメディア「アキバ総研」が2024年9月30日(月)15時をもってサービスを終了することを発表した。
「アキバ総研」ではアニメの最新ニュースのほか、各クール毎に放送されるアニメ一覧の公開やレビュー機能、投票企画や秋葉原の地元ネタなどの掲載で親しまれている。
「アキバ総研」サービス終了のお知らせ
「アキバ総研は、『アニメ&アキバ系カルチャー情報』を発信するメディアとして2002年からコンテンツ提供を続けてまいりましたが、この度、2024年9月30日(月)をもちましてサービスを終了することとなりました、
サービス終了に伴い、記事及びレビュー、投票などはすべて閲覧できなくなります。
改めまして、アキバ総研は2024年9月30日(月)をもちましてサービスを終了いたします、これまでご利用いただき、誠にありがとうございました。」
突然の終了発表を受け、SNSには「サービス終了は正直言って残念です。」・「サービス終了だなんてさみしい。」・「サービス終了と聞いて衝撃を受けた。」・「また一つの時代が終わる。」・「アキバ総研までなくなっちゃうなんて。」と、惜しむ声が続々と上がっている。
サ終する時、サ主がIAにデータ提供してから閉めればこっちは保存しなくて済むから楽なんだけどな
公式にそれをしにくいのはまあ分かるけど せめてURLの一覧をどっかに置いておいてくれたらこっちで登録するんだけどな 例えばアキバ総研の記事は /article/66874/ の数字の部分を上げていけばいいけど 1記事で2ページ目があったり、記事の中に画像があったりするとそっちのURLも登録しないといけない。
TVerプラス【サービス終了のお知らせ】
https://plus.tver.jp/ 平素より「TVerプラス」をご利用いただき、誠にありがとうございます。
2024年9月30日をもちまして「TVerプラス」はサービスを終了させて
いただくこととなりました。
長らくのご愛顧、誠にありがとうございました。
ねとらじもいつの間にか終わってた発表から数日で終わりは悲しいな
mimizunってまだ生きてたんだな…
試してみたけど、datは取れない感じなのかな
https://mimizun.com/blog/2012/02/post-694.html http:// mimizun .c om/log/2ch/newsplus/1268106381/ はhtmlで見れるけど
$ curl -i -A "xxx Monazilla/1.00 xxx" "
http:// mimizun. c om/log/2ch/newsplus/1268106381.dat"
を指定してもhtmlが返ってくる。
2024年にTwitterで御本人に質問している人が居るけど反応無いっぽい
x[.]com/1010Kui/status/1748324729457639583
from:mimizun 過去ログ とか dat で検索すると過去ログを調べるのに有用な情報が盛り沢山だな
みみずんのデータもいずれ手動登録しなきゃダメなのか
twitterとるには結局どうすりゃ良いんだ todayしかないか
《 http://yomoyama-bbs.jp/test/read.cgi/2/2817/ 3 名前:名無し[sage] 投稿日:2024-09-10 13:21 ID: Twitter運営はUI改悪しまくりやがって会話ログも検索結果群もアーカイブ不良きたすに堕した。 ミラークライアントのMovatterとか、Nitter鯖の復活増を願うしかない 》 pythonでテキストファイル読み取って SPNにURL送るようなスクリプト作ったんだが 送る感覚ってどれくらいがいいんだろう 1分に1URLとか? 流石にもっと早くしても鯖負担かからないだろうか
>>615 一年くらい前は立て続けにアクセスすると TCP セッション自体がブロックされたりしてたけど
今は一秒間隔でも多分大丈夫。
とは言っても一分あたりの受け付けリスエスト数の上限があるから
随時 user status を読み取って、上限を超えてたら暫く (※) 待つような仕組みを入れないと
まともに動かないよ。
(※)
上の「一分あたりのリスエスト数」を管理しているカウンタは毎分 00 秒にリセットされる。
マシンの NTP 同期の精度にもよるけど、余裕を見て時計が次の 01 秒とか 05 秒とかになるまで
待たせておけば充分。
それとは別に、同一サーバの長大ファイル群を連続してアーカイブさせる場合などは 向こうの並行ダウンロードセッション数があまり大きくならないように こちらで抑えてあげないと、途中でちょん切れたものがアーカイブされてしまうのは 困った話。
>>613 間接的でいいならnitter経由でとったら
まだ動いてるインスタンスあるし
既にほんの僅かだから復活鯖が増えぬと死んだ時点でオワコンへ…。
>>621 URL貼ったついでにアーカイブしておくとか、そういうのは頭に無いんだw
ググルキャッシュは無くなると言われてたけれどリンクが無くなっただけで今もずっと機能してたしこれがIAに変わるなら今まで知らなかった人たちの削除申請が始まりそうです
消されたページは検索結果に出ないからキャッシュまで来れないだろうし大丈夫じゃね その辺調べてIAまで辿り着ける人はもともと削除依頼してるだろうし
グーグルキャッシュだと数時間前のキャッシュということも多々あったけど Internet Archive だと数年前のキャッシュということもありそうだ
試してみたが、そもそもキャッシュ自体が分かりづらい場所にあるなw 知らない人は見つけられなそう、まぁそっちの方がいいか
従来のキャッシュが廃止だと「テキストのみ表示」の機能も喪失となって不便出そう。
グーグルがキャッシュを保持しなくなったら検索すら機能しなくなるだろ それがアクセスしやすい場所で公開されるかどうかとは別の話
archivetodayというゴミサイト開けないが
初歩的なこと聞いていい? クレカで寄付の時に入れる名前って支援者一覧みたいに公開されたりしないよな?
>>631 基本的にこういうサイトで寄付者を公開するときは本人の同意が必要なはず
>>632 ありがとう
大丈夫だろと思いつつ不安だったんで助かった
実名掲載されるのが嫌 同姓同名なんて腐るほどいるだろうけど気分的に
Wayback Machineで呼び出せな…、つまり死んでる 気になる記事があるときに限って
アーカイブ画面上部の時系列バーが復活。
うちの環境では消えてたんだよね、おま環なら広告ブロッカー辺りの設定を見直すわ。
>>637 同じく
上のバー消えてて昨日今日辺りからまた前みたいに出るようになった
>>638 そうか良かった
寄付しろメッセージなどは出るたびにブロックさせてたから、何かの拍子に巻き添えにしたかもと思ってたんだ。
archive.today数日前はキューが1万件以上あって保存まで数時間かかる惨状だったが復調してきたね リキャプチャ要求される間隔はかなり短くなった
>>624 > ググルキャッシュは無くなると言われてたけれどリンクが無くなっただけで今もずっと機能してたしこれがIAに変わるなら今まで知らなかった人たちの削除申請が始まりそうです
>
↑今日で旧来のGoogleキャッシュが完全に終わっちまったみたいだ…。
不便増えるわ。
X(旧Twitter)のポスト(ツイート)が取得できない 強制的にZachXBT/status/1425569468755890180?mx=2に飛ばされる
いつも重いなと思ってたら平日の昼間なら軽くて夜が重かったんだな
https://nitter.lucabased.xyz/ ↑現状このサイト経由ならTwitter(X)保存できるで。ドイツのサイトらしいが
Twitter運営にBANされるからもう晒さんでほしかった。
意外とIAって知られてないよね まあ知られたら知られたで色々規制厳しくなって アーカイブ消えまくるんだろうけど アーカイブを増やそうと有名にすればするほど 騒がれてアーカイブが消えていくジレンマ
【 【ネット】ついにGoogle検索のキャッシュ提供が完全終了 http://2chb.net/r/scienceplus/1727269320/ ―― ついにGoogle検索のキャッシュ提供が完全終了 http://2chb.net/r/newsplus/1727231285/ 116 名前:名無し[] 投稿日:2024/09/26(木) 05:12 ID: 各大学レポジトリの歴史論文とかPDFだから、HTMLへ変換されたGoogleキャッシュが便利だったのに…。 】 >>601 大昔のスレ参照(共有)するのにスレタイとアドレスは最低持ってないと大変 それでも外部のまとめがヒットするとは限らんし
scは太古のログを持ってない 結構深刻な問題 archiveに入れたかどうかで命運分かれてしまってる
sc発足以降のクロールはまばらだが時々チェックしておくと参考になる 5chのドメイン部分を雑に2ch。scと打ち替えてもリダイレクトされる
実況などのスレ落ち早い板のクロールは苦手だが専門板はわりとまともに動作 メモ用にも使える
5ch新設板とpink系はクロールしない(2chではないため ただ一部例外あるっぽい)
スレ立てスクリプトの被害は5chよりも2chのほうが多大なのでメモスレなどを形成した場合は注意
またクロールしたスレをスレタイ検索で探すのは困難(対応している適当な検索があまりない)なので必要なものは控えをとる
>>547 魔法のiランド 2025/03/31にカクヨムに統合
https://maho.jp/info/entry/maho_i_will_no_longer_available 手動でエクスポートインポートする機能が提供されてるけど全ユーザー自動ではないから消える作品も沢山有るんだろうな
コンテンツ本文はjavascriptで書いてるからアーカイヴするには工夫が必要そう
軽く見ただけで2007年とかの作品あるから、消えるのは惜しすぎる…なんとかしたい
IA上で適当ながら作品のURLを入れてみたら、ページの保存はされてるけど本文は読めない状態だった。 本文は動的にgraphQLから取得してる。 スクレイピンク時にURLをシャープ込みで正しく指定して、javascriptが実行されれば保存出来そうだがどうかな…
【 600 名前:名無しさん[sage] 投稿日:2024/09/02(月) 21:40 大昔の5ch過去ログも無料では復活せぬかもしれんから、みみずん鯖で保管されてる分だけでも一括アーカイブされればいいけど…。 《 携帯5chブラウザ ぬこ Part181 http://2chb.net/r/chakumelo/1721834468/ 186 名前:携帯電話情報通知[] 投稿日:2024/09/01(日) 22:38 ID: 久しぶりに過去ログ見ようと思ったら、5chサーバ混雑またはサーバ落ちのため、レスを取得できませんでした。しばらく待ってリロードしてください。ってずっと出てくるんだけどもう見れないの? 192 名前:携帯電話情報通知[sage] 投稿日:2024/09/02(月) 06:41 ID: >> 186 大昔の分はヌコの過去ログ検索で板サーバ名の綴りとスレッド数字列まで判明するから mimizunサービスにバックアップされてれば見れる。まあ実況系板はかなり補完漏れ生じてるようだが 〈 WOWOW 17 http://mimizun.com/log/2ch/weekly/1058205020/ 〉 》 】 せめてスレッドのホスト名、スレッドキー、タイトルの一覧くらいはどこかで確保したいんだよなあ
去年あたりの規制前に5chのアーカイブしとけば良かったなぁ・・・ まさかこんな事になるとは思わなかった
去年に頑張って5chの過去ログを過去サーバー含めてスレタイ一覧スクレイピングしたよな…githubの自分のレポジトリにスクレイピング用のソース残ってるし と思ったらその後CドライブのSSDが吹っ飛んだからその時に一緒に消えたんだった… なんJがスレッド数がめちゃくちゃ多くてページ数がすごい事になってた記憶
国家事業での保護も民間での保護も法整備も必要 だが当面何一つ進みそうにない我が国 海外勢がやみくもに取得して利益独占しそう(IAも一応これ) 原本がないものの権利の主張は難しいし
↓だってさ。
「状況どう?」って聞いたその日にこの書き込みがあったから、まさか「今日ぶっ壊れた」って事は無いだろう。
「アーカイブを展開するところからやり直している」とは一言も書いてないのが気になるんだよなあ…
"アーカイブの展開"は手間がかかってまだ着手してない。つまり本当にアーカイブの中にデータが揃っているかも現状不明で
下手するとアーカイブ出来てませんでした も全然あるよなあ…
■5ちゃんねる■過去ログ・過去ログ倉庫■運用情報・不具合報告■
http://2chb.net/r/operate/1697962402/357 357 名前:Ace ★[] 投稿日:2024/09/27(金) 14:50:10.24 ID:CAP_USER
残念なお知らせです。
過去ログ鯖は着々と作業をしていた模様ですが、物理的にぶっ壊れたそうです。
アーカイブ等はバックアップしているのでネットの彼方に消えたわけでは無いですが、
アーカイブを展開するところまで「振り出しに戻る」という状況です。
363 名前:Ace ★[] 投稿日:2024/09/27(金) 16:39:08.02 ID:CAP_USER
>>362 バックアップはアーカイブ状態なので展開しないと見れません
ここの運営の言う事なんかまともに信用できないんだから全部ぶっ壊れてる前提でいなきゃだめ
mimizum(みみずん)のログを archive.org へ保全するほうが先決じゃないの? あすこも何時まで鯖の維持出来るか分からぬだろうし( 既にログ速も Unker も亡くなった… )
自分だけかもしれないけどアキバ総研のアーカイブした記事を見ようとするとトップに飛ばされる (魚拓とtodayのは普通に見れる)
>>665 >>537 に書いてあるとおりjsでチェックしてる。
正直いやらしいけどIA対策としては有効ではあるんだよな…
>>664 みみずんって
・datの取得はできなくなっている
・htmlは取得出来る
・ただし、htmlの一覧が無いから総当りするしかない?
と思ってるんだけどどうよ
特にページの一覧が無いとどうしようもない
強制リダイレクトを無効化するブラウザ無かった? 記事文だけならテキストブラウザなり読む方法は色々あるが
>>667 かころぐjp の検索結果か、Archive.org 内の各板・過去鯖スレッド一覧アーカイブから末尾キー拾わせてくしかないかもしれない…。 〈 かころぐ kakolog.jp http://2chb.net/r/esite/1725790523/ 〉 >>668 アキバ総研はjsを無効化してもページ内容読めるから、devtoolから無効化すればchromeでも見れる。
それ以外だと、インターネットアーカイブのリンクをクリックするだけで見れる!とはならないけど
iframeのsandbox属性でjavascript無効にすると見れる。
>>669 とにかくまずはスレッドの一覧を作る所が一番大切だよな…
個人的にはbbspinkも救出したいんだけど、
とにかくサーバー名・板ID(esite)・スレッドキー(1690465133) の3属性があれば特定は出来るか
URL貼ってもアーカイブが出てこないで直接今のURLが開かれるだけになっているのだが?
>>610 みみずんはhttpsだと開けないからhttpを指定しないといけなくて面倒
>>661 紙媒体なら国立国会図書館がとりあえず大体保存してくれるからいいんだけどね…
WARPは官公庁あたりしか残してくれないから
こういうサービスの終了を見るたびにXanaduが実現していればと思う ハイパーリンク同士を参照し合う原理上リンク切れが起こらないからアーカイブももっと楽になるはず
>>673 記事が全部InternetArchiveに記録されてるから、一覧表示サイトを作ったで。twitterで検索よろしく
アキバ総研は今日の15時に閉鎖 各々思い残しがないように
インターネット上に放たれた情報は 2度と制御できない不滅って認識だったが ・検索できなくなって埋もれる ・サービス終了して消される ・作者が消す ほとんどの情報はこの3つのどれかに行き着くのかもしれないな
TVerプラスの保全お願いに来たかったんだけど 間に合わなかった…😭
zakzakが閉鎖するらしい ああいうニュースサイトって過去の記事けしまくってるから積極的なアーカイブする必然性は薄いと思ってるんだけどどう? 全記事一覧ページって無いよね?
hxh.rakuwiki.com にあるコンテンツ(特に画像)を保存したいと考えています
例
http://hxh.rakuwiki.com/card/2436/ スクショ(青矢印)
書き込みがエラーでうまくいかないので、内容のスクショとテキストをpastebinに記載しました
内容のスクショ
pastebin
https://paste.gg/p/anonymous/263a8a6e1ddd41c1b43815887822235b/files/e0cf8a0acaca40db990260d2a507e002/raw なにかよい方法が有りましたらぜひ教えて下さい
>>684 なんかそこ、HTTP HEAD を無条件に排除してない?
force_get=1 を付けて個々のファイルをアーカイブする分には問題無さそうなんだけど。
・・・と思ったら、無しでも行けることがあるな。 404 を返す条件がよく解らん。
>>680 AI使ってるせいなのか検索結果がばらばらで本当に困る
サイト改竄?により情報漏洩を示唆する謎メッセージが出現
↓
セキュリティ大手情報サイト Bleeping Computer によると
3,100万人分のユーザデータの流出していて、本物であることも確認済みとのこと
流出したデータ
・メアド
・表示名
・パスワード変更時間
・Bcryptでハッシュ化されたパスワード など
Internet Archive hacked, data breach impacts 31 million users
https://www.bleepingcomputer.com/news/security/internet-archive-hacked-data-breach-impacts-31-million-users/ 情報漏洩との関連性は不明だが、BlackMetaを名乗るハカーがDDoS攻撃仕掛けてるらしい
「Wayback Machine」のInternet Archiveから3100万人のユーザーデータ漏えい
つまらん 過去全データとバックアップ削除して復旧不可能にならんと祭りじゃないよ
ライブラリの方は元々メタデータからメールアドレスが取り出せる仕組みだったし、 パスワードだけでなくメアドも他所のアカウントとは分離したりとか 対策できる人はやってたでしょ
何か繋がらないなと思ったら、ハッキングされてたのか・・・
今日つながらないなぁと思ってここに来たらハックの情報を知って 慌ててIAのログインに使ってたメアドのパスを変えてきた
>>699 2・3日前からつながったりつながらなかったり
知識不足でよくわからないんだが、Wayback Machineのユーザー情報漏洩って、 Wayback Machineにユーザー情報とかあったの? URL貼って日付け選んで、削除前のHPに行くくらいしか使ったことないんだが・・・ 削除前のHPでログインした情報とかが漏洩したって事?
ハッキングされたって事はウイルス仕込まれた可能性もあるのか・・・?
ちょくちょく利用してたけど、ここがなくなったら困るんだが、復活するかな?
>>703 Internet Archiveにはメールアドレスを登録することで
デジタル化された本を借りることができる機能がある
503 エラーページに Bluesky と Mastodon へのリンクを追加。
DDoS攻撃してる奴が飽きるか対策するかだけど改竄までされてるからもう無理かなあ・・・
アーカイブのデータは壊されていないとのこと
https://x.com/brewster_kahle/status/1844485102312751421 サイトを改竄してお漏らしさせる事案って本当に多いんだよね
一週間前のタリーズオンラインストアもそれでしょう
それともアーカイブ自体の破壊が目的だったのか
ミソがついた形だが、アーカイブが改ざんされていないかどうかの信用評価はこれから
Internet Archive の場合、今までは非SSL端末や非SSLブラウザでも自由にPageアーカイブ保存したり開いたり出来たのが利点だったけど、今回の鯖ダウンを契機としてセキュリティ引き上げを口実に非SSLの締め出し強行されたら嫌だなぁ…。 《 【悲報】新浪人のUPLIFT、httpsがTLS1.0→TLS1.2になった為に一部の専ブラでログインできない事が判明 [487816701] http://2chb.net/r/news/1693635036/?v=pc 》 >
https://x.com/brewster_kahle/status/1844790609573277792 >Estimated Timeline: days, not weeks.
マダァ?(・∀・)っ/🍵⌒✨
復帰してくれないとarchive.orgを使う次のレスが打てん
5chでリンク張ると横に文字数が長くなるキライがあるけど、
こういう時にリンクにアドレス名が入ってると
元のアドレスが何か判るのは良い(archive.todayだと何のリンクか判らなくなる)
ユーザー登録ログイン機能って必要性あったのかな?
それと、
Twitter(𝕏), Instagram, Facebookなど(5chのレスも鯖によって執れない処があった記憶)
執れないと判明してるサイトを無駄に執らせる仕様も改良してほしい
archive.todayの方では執れたりするから
技術的に🉑能と想われるのでなんとかしてほしい
Archive.today は
https://archive.is/https ://example.com/
でもリンクできる(ただしアーカイブの一覧になる)
Archive.today は
https://archive.is/https ://example.com/
でもリンクできる(ただしアーカイブの一覧になる)
webページのキャプチャだけならログインは不要かもしれんけど ファイルのアップロード機能もあるからな まあweb割れの総本山のイメージしか無いけど。
archive.todayのアーカイヴされたページの「シェア」を押すと長いリンクを見られる
https://archive.today/2024.10.12-122059/https ://www.isitdownrightnow.com/web.archive.org.html
日時は下記のようにもできる
https://archive.today/20241012122059/https ://www.isitdownrightnow.com/web.archive.org.html
専ブラでは問題無かったりするけど
URL の真ん中にスキーム名が残るのは避けたいことがあるのよね
まぁ : を %3a に置換すれば良いのだけど
have i been pwnedで調べたら見事にメルアドとパスワード抜かれてたわ 普段使ってるメルアドじゃなかったからまだマシかも
個々のスクリプト毎にランダム生成の捨てアドでアカウントを作ってたけど
取り敢えずパスワードは変えるかぁ・・・
流出したパスワードは平文じゃなくてハッシュだけどな まぁ不安なら変えといた方がいい
しかしまぁいつ頃復旧すんだろうね? どっかの国産動画サイトよろしく2ヶ月弱とか勘弁願いたいが
>>729 ブリュースター・ケール曰く"days, not weeks"
その言葉を信じれば今週中じゃないかな
これアーカイブするか→IA開く→そういや落ちてたわ・・・ ってのを繰り返してる
とりあえずは閲覧限定だが仮復旧したか 全面復旧はいつになるのやら
見られるようになったね とりあえずデータは破壊されていなかったようで一安心
アキバ総研アーカイブも無事動いてよかった。 セキュリテイ強化と言い出して仕様変わったら見れなくなってた
サイト見ちゃって大丈夫かな? なんか変なスクリプト埋め込まれてたら嫌なんだが まあみるだけなら大丈夫か
>>738 取得のページに一応アクセスはできるが、残念ながら・・・
正直こっちのほうがKADOKAWAへの攻撃よりも個人的には衝撃を受けたわ
6/8にニコニコがハッキングされてさ 8/8ぐらいに復旧したんだけど Switchで観るかスマホで観るしかなかった それで最近になってWebCast使ってここの動画をまぁ…いろいろ観て楽しんでたわけよ それで一通りそれらを見て落ち着いたあたりでこれだ PS5も値上がりしてモンハン買う気起きなくなったし厄年すぎる
WebCastでChromecastのキャスト伝ってiPhoneに変なもん送れるならやってみろって感じ Google様とApple様に手を出すのが怖いチキン共だから 脆弱そうな角川やらここを狙うしかねえんだろ?
そういやニコニコは復旧後コメントの過去ログが取れなくなった。 復旧予定項目にも無いし、無かったことになりそう それか過去ログはデータが本当に消えちゃったか。
過去の英語の記事をたくさん見るから困ってます。代替え手段はありますか?
これも時代の流れなのか
504 Gateway Time-out こればっか
10日位にダウンしたからもう一週間位のアーカイブ全部吹っ飛んだか・・・悲しい
>>755 個人的には半日位でスレ落ちして原則ログが残らない某画像掲示板とかいつ消えるかもわからんSNSの元画像とかそんな所か
魚拓やarchive.isでいいじゃんって言われそうだが一件一件チマチマ登録すんのが面倒でタイパ悪いしwebarchiveに比べて色々制限があんのが…
試しにCNNとか有名どころのurlで探してみると毎日アーカイブ取得されてるのが分かるな 古いアーカイブは探せるようにはなってるから
>>756 魚拓は24時間に60件まで
archive.is(というかarchive.today)はPDFに対応していない
やはりInternet Archiveにはかなわない
waybackmachine閲覧できるようになったらしいけどアクセスして大丈夫かな?ハッカーになんか仕掛けられてたら怖いんだが 一応そこも確認したのかな? 誰か教えて
>>760 もう永遠にアクセスしない方がいい
ハッカーがとてつもないバックドアで回転木馬を不正ログインさせたからな
お前みたいな初心者は全情報抜かれる
IAが潰された事によって他のアーカイブサイトにIA勢が湧いてきて糞重くなってんの怠い
アーカイブサイトって ・IA ・archive today ・web魚拓 ここら辺しか知らないんだが 他のサイトってあるか? 情報一覧とか載ってるサイトとかあるのかな?
https://x.com/waybackmachine/status/1846656653799895283 The Wayback Machine @waybackmachine
午前5:57 ・ 2024年10月17日
Wanted to share an update from Team @waybackmachine
The archives are safe & the Wayback Machine is up in read-only mode.
We hope to turn on more web crawling within a day to make sure our web collections remain whole.
Next up: Save Page Now.
Thank you for the support!
チーム@waybackmachineからの最新情報をお伝えします。
アーカイブは無事でWayback Machineは読み取り専用モードで稼動しています。
1日以内にさらにウェブのクロールを開始し、ウェブ・コレクションが
完全な状態で維持されるようにしたいと考えています。
次は、Save Page Now です。
応援ありがとうございました!
>>765 ログイン周りは全く動いてないね
パスワードどころか、メールアドレスごと早く替えたい
こういうサイトの捨てアドで作ったアカウントがあるから
アドレスさえ判っていれば誰でも乗っ取れちゃうw
https://www.txen.de/ >>766 10年以上前、Waybackが任意に保存できるの知らなくて某ブログを保存するのに使ったサイトがあったけど
そのサイト自体が消えたw(サイト名すら忘れた)、せめて魚拓使っとけばよかった
>>770 アーカイブサイトが死ぬと
もうどうにもならないよな
この3つが生命線かぁ…
>>770 昔は類似サイトいくつかあったけど
残ったのはこの3つ
IA以上に信頼できるアーカイブサイトって無いからなぁ web魚拓は営利企業だから収益が悪化すれば消える可能性あるし todayに至っては運営者がよく分からん
個人的に保存したいだけならossのアーカイブツールが最強だけど 不特定多数に公開、もしくはアーカイブを証明として使うなら選択肢は片手で数えられるくらいしか無いよな
>>770 EvernoteのWebクリッパーは外部へ公開出来ないんだっけ?
成人エロでしょ、これまたどうして ナチュリスト系のサイトはドメインごと排除されてたりするな 見る側は児○として見てるからねぇ
アクセスしたけど、アクセスしない方が良かった? サイトにウイルス仕込まれてたら、サイトにアクセスしただけでアウト?
流石に復旧する前にチェックしてるはず だから大丈夫じゃない? てか今どき見ただけでウイルスかかるってあるんか?
Wayback Machine, Archive-It and blog.archive.org resumed.
アカウント周りはまだか
>>723 なるほど、これならarchive.Todayもリンクを遣い別けられる >>783 archive.Orgは真ん中の日付を省略して最後に執ったものを表示させることが出来るのは知ってたけど、 ・/web/0/ =Oldest ・/web/2/ =Newest は知らなかった! ⚠︎Newestの方は最後がミスキャプチャーになるとミスキャプチャーを返すので使えない e.g. 🆖https://web.archive.org/web/2/https ://twitter.com/internetarchive/ archive.Orgの画像の直リンを使う事が多いのだけど その場合の/web/**************if_/や/web/**************im_/のアドレスにも ・/web/0if_/ ・/web/0im_/ でOldestが効く模様 e.g. 🇬https://web.archive.org/web/0im_/http ://www.google.com/google.jpg >>724 それは5chのUIを構築してる無能の不手際 ミラーの2ch(sc)の方ではそういう文字列もちゃんとリンクとして表記される 引用で5chの書き込みを使う時はscの方のリンクを使う様にしてる e.g. 🔗https://toro.2ch.s%EF%BD%83/test/read.cgi/win/1642086530/352n ※scは名前欄のレス番がsc増加レス分だけズレる https://twitter.com/thejimwatkins ・/web/1/ ≠Oldest e.g. 🔂https://web.archive.org/web/1im_/http ://www.google.com/google.jpg 微妙に指定アドレスとは違う最古のものが表示されるけど 何だろうね1のパラメータは Stanford Web Archive Portal
レトロPCのカタログとか雑誌切り抜きとかマニュアルを見ようと思ったら…全滅。そのうち復活するのかな
ニコニコもハッキングされてたけど 海外のサイトはセキュリティ万全のイメージあるけど 日本と大して変わらないのか
海外のサイトって主語がデカすぎるな そもそも基盤ネットワークまで侵入されたニコニコとは比べ物にならん
今のOS豊富な機能のバグ潰しきれてなくて穴だらけだから、 そこ悪用するだけだし パスクラ(懐)
URL 中の日時数字列、現在の取り扱いはおそらくこう:
1. 14 桁に満たない場合、後ろを 9 で埋めて 14 桁にする
2. 月、日、時など、それぞれ有効範囲外の値を正規化する
(99 月 → 12 月、99 日 → 31 日、99 時 → 23 時、など)
3. 出来上がった日時数字列に最も近いタイムスタンプのアーカイブを提示する
例: web.archive.org/web/20100/... を指定した場合
2010 年 09 月 99 日 99 時 99 分 99 秒 → 2010 年 09 月 30 日 23 時 59 分 59 秒
この時刻に最も近いアーカイブが出てくるはず。
https://web.archive.org/web/20100/www.google.com/ 1 が最古、って言うのは archive.org 上のどこかのドキュメントに書いてあったんだよね。
でもそれも 20 年近く前の記憶。
それが肝心だしなぁ
アクセスそのもの(閲覧だけ)の復旧には4日ぐらいかかったが、取得機能の復旧は果たして
一応
>>768 で触れられてるが・・・
先週から休みを取らずに対処してるってスタッフが言ってるし、近いうちに直ると信じたい あとこれを機に色んなシステムをアップデートしてるから時間がかかってるらしい
vectorみたいなフリーのHPスペースってどうやってアーカイブすればいいんだろう? トップページのURL一覧は機械的に作成出来るだろうけど、その中のサブページ? は地道にhtmlをパースするしか無い? 配置されてるhtmlの一覧が見れれば嬉しいけど、そんなのあるわけ無いし
Internet Archive、盗まれたアクセストークンを悪用され再び被害
サポートメールのシステムに侵入して、そこから攻撃者がメールを送信してきたらしい
削除リクエストを含む80万件以上の問い合わせ情報が流出か
Internet Archive breached again through stolen access tokens
https://www.bleepingcomputer.com/news/security/internet-archive-breached-again-through-stolen-access-tokens/ マジで復旧後にwaybackmachine使ったらやばい?ページ改ざんされてる可能性ない?
>>800 使うだけでヤバイってブラウザのゼロデイでも想定してるって事?
まさかとは思うが、よく分からんけどアクセスするだけで感染しそう!っていう小学生リテラシーじゃないよな
>>799 ヤバいな
今の状況ってなかなかに試練じゃないか?
ゼロデイじゃなくても信頼出来るサイトのアーカイブが改竄されて怪しいサイトのリンクに書き換えられたりするのも充分にリスクだと思うけどね サンドボックスを理解してる技術者ならともかく、一般人はサイトにアクセスするのと、 出て来るダイアログを何も考えずにok押して勝手にダウンロードされたexeを開く行為の区別なんか無いし
アーカイブが改ざんされたって情報はどこにもないけどね 妄想を元に推論していくならアクセスするなとしか言えない、それが一番安全 ゼロクリックでPCを壊すマルウェアを仕込むのも「技術的には可能」なので
アクセスするなというか復旧後にすでに使ってるんだけどね。 もうちょい待てば良かったか てかよく見たら新しくやられたというより9日にハッキングされた時にとられた奴を利用された感じみたいね 流石に復旧する時にサイトは念入りにチェックしてると思いたいが
ためらいがちとか生ぬるいこと言わず、 金輪際使うのをやめるって方法もあるんだぜw
多少怖いよね。ハッキングされました→復旧しました。→昨日のニュースみたいなことが起きましただからね おれはもう使っちゃたけど閲覧目的なら一旦様子見もありかもな
多少怖いって何だよ ちょっと怖かったり絶大に怖かったり変化するのかよ
取る方がメインで見る方は元サイト消えた時だから今のIAに用無いわ
アレ?また見れなくなった? これ書き込んでる現在、こっちの環境だとこのサイトにアクセスできませんって出るのだが…
こっちもアクセスできない また何かあったのか、それとも完全復活の兆しか・・・
またハッキングされたんかな? だとしたらもう復旧後に使ってるから勘弁なんだが Xみても情報ない
無反応だった archive.org は 503 ページを出すようになった
Wayback Machine の記述は削除、実際 web.archive.org は反応無し
22 日のイベントが終わったのか当該記述も削除
waybackmachine復旧しても使わないほうがよさげ? こうなるのわかってたら復旧後にアクセスしなかったよ。 検索閲覧程度なら大丈夫かな?
>>821 大丈夫なわけ無いだろ
もう過去は振り返るな、真っ暗な将来だけを見て生きろ
てかあれから進展あったの? お知らせらしきもの探しても見つからんしハッキングされたときみたいにニュースになってない
一覧にアクセスしようとすると Wayback Machine failed to return archive information.
↕
https://web.archive.org/ このページ、放置してると文が上下に浮動するのナニコレ?w
Orgは復旧しなさそうだしTodayの方を遣うかなァ
>>828 あほが無理してレスせんでええんやで?w
2024はサイバー犯罪元年だな 全世界で両手指を切り落とす刑罰の制定が必要だわ
503が出たので飛んできました ハッキングの余波が収まらないのか
ネットわかんないけどWayback Machine使ってるそこの君
常日頃IA使ってるだろうここへの書き込みがズレてるから知識をつけて半年ROMるといいぞ
まずはURIやHTMLやJavaScriptとDNSやGETリクエストの仕組みを入門とか初心者で調べて
スマホでもJavaScript(Kiwiの開発者モード)やPython(Termux)動かせるから手探りで色々やってみるんだ
https://chatgpt.com にバンバン疑問を投げかけるのも心がけろ
ばかにしたり煽る人もいるけど専門性が高いコミュニティは少なからずこれが当たり前だから気に病まず頑張れ
ずっと「Temporarily Offline」で取得不能
使えるようになったら使いたいんだけど有名人のXじゃなくて一般人のXの削除ポストって見れる? 自分の1年前のポストなんだけどXのアーカイブだと消えてて。
それって事前に自分でやってなきゃだめってことです?
>>842 >>841 自身がIAアーカイブしてなきゃ可能性はかなり低いと思う
IAがXを自動収集している訳ではないし、人気のポストなら誰かがIAアーカイブしてくれてたかもだけど
Googleのキャッシュが現役だったらまだそちらの方が可能性があっただろうけど
>>844 ですよね。となると見る方法はなさそうか
ありがとうございました
アメリカの図書館がTwitterの公開ツイートをクロールしてるって話があったけど イーロン体制になっても維持されてるのか、 そのアーカイブはwebで公開されているのか は知らん
どっちみちイーロンになってからはまともにIAでは取れなくなってるし
恒久的なアーカイブ方法って何があるんだろうな 電子の海にデータを放出すれば消えないはずだったのに
ネット上の情報のほうが恒久的に消滅する可能性が非常に高い だなんて15~20年くらい前には思いもしなかったよな
アーカイブ冗長的に整備・一般化> レアデータの争奪> 生成偽書が大量に出現> 収拾不能に
>>850 ネット上の情報の方がってのは言い過ぎな気もするけどね
よく昔の石板や紙の文書が例に出されるけど、あれだって現代まで残ってるのは1%もないからね
15年前でも大好きだった個人サイトの小説やニコニコの動画やコメントがある日突然跡形もなく一瞬で消えてもう二度と見れなくて泣いた事何度もあったからネットの儚さは気づいてた それ以来少しでも気に入ったものはすぐにローカル保存できればアーカイブもするようになった ネット情報は10年以上残ってるのですらほとんど無いってだいぶ前の調査記事で見たし ある事件について調べようとしてもどんなに探しても不気味なほどネットには何も残ってなくて分からないのだと この時代の情報は実は後の時代から見たらほとんど残ってなくて空白の時代になるんじゃないかとも危惧されてたり 自分の昔ブックマークしてたサイトもほぼ全滅 昔の情報あさっても2ちゃんの過去ログしかない事ばかり デジタル情報ほど残らない諸行無常を感じるものもない
IAって無料でメアド登録したら ファイルアップ出来るようになるの?
こらぁいよいよ以てニコニココースかねぇ… 全面復旧すんのとこのスレが埋まんのはどっちが早いんだか…
貴重な記録だよね そのうちアメリカ政府が管理してくれたりしないだろうか…
ファイルを圧縮してまとめてダウンロードする機能が死んでてイライラするんだけど、いつ復旧するとか情報ある? 代わりにtorrentで落とそうとしてみたけど、なんかバグってるみたいでダウンロードはしてるんだけどずっと0%のままみたいな感じになるし……。これ、なんかトレント側の設定で回避できたりする?
いくつか μTorrent で試してみたけど、トラッカーも配信サーバもどちらも動いてる模様。
あれって .torrent の形はしてるけど、中身は P2P ではなく
GetRight というダウンローダによる BitTorrent プロトコル拡張、
トラッカーがダウンロードを指示する先は IA のサーバの HTTP 80 番ポート。
そのまま GetRight を使うか、BitComet や μTorrent のような
同じ実装を取り込んだ torrent クライアントでなければ落ちてこないだろうね。
https://web.archive.org/web/2/help.archive.org/help/archive-bittorrents/ >>853 確かに言われてみれば諸行無常だな
いつのまにかWEBサイト消えてるか閉鎖してること多いし
永遠なんてなかったんだな
>>863 ありがとう。Bittorrent使ってました! μTorrent使ったら問題なく落ちてきました。失礼しました。
選挙速報とかもアーカイブしたら 時間軸でどう変化したか見れるのかな
時間軸で見られたところで、あれって (本来あってはいけないはずの) 個々の選挙区内の有権者数の差と、 開票作業に手当てできる人員の差でああいう流れが生じてるだけなんだよなー
選挙で思い出したけどアメリカ大統領選って来月の5日だよね それまでにはSPNも復旧してるといいが
破産状態にあった取引先のIA魚拓がごっそり消されてた グレーなうわさも聞いたが管財人が消す動機も無いし隠滅工作かなあ?
"Wayback Machine failed to return archive information." アーカイブをURLで検索しても、このメッセージがずっと出てくる
書き込んでから気づいたが
>>826 で既出だね、すまん
Firefoxだとアーカイブされてるページに飛べないのだが Chromiumのブラウザだと飛べるが Firefoxだと404 Not Foundが出てくる
>>850 「ネットなら残る」「紙なら残る」というのが間違い
ネットだろうが紙だろうが、残す努力をしたものは残るし、
逆に誰も残そうとしなかったものは残らないってだけのこと
(稀に偶然残ることもあるが)
>>853 ここだって昔の全然見られなくなってるからな
専ブラ使う人多いからウェブアーカイブには残されにくいし
運営のゴタゴタと荒らしと利用人口減で存続が怪しくなってきてる5chの未来考えるとすごく不安
5ちゃん閉鎖するとなったら 5ちゃんのアーカイブごと消えたりして 削除申請出されてね…
HTMLを気軽にDAT化する方法ってないの、逆じゃなくて 以前はあったと思うんだけど
>>877 html2datみたいなツールがあるけど、半角スペースが連続した場合とかhtmlの段階で情報が抜け落ちてる場合があるから完全な変換は出来ない。
>>875 5ちゃんの過去ログ全然戻らんからsc見てるわ
scって検索に全然かからんのが
KADOKAWAグループサイト、4か月半ぶりに復旧
www.itmedia.co .jp/news/articles/2410/29/news186.html
ここの本格復旧(取得機能の復旧)は果たして・・・
ちなみに
>>870 の件は、数時間前は直ってなかったが、今見られた
此閒のDoodleの🌗
http://archive.Today/2024.10.23-222516/https ://www.google.co.jp/
Orgでコレクトされてればアーカイブからプレイ出来たのかな?
▶
https://doodles.google/doodle/rise-of-the-half-moon/ からプレイできるのはEnglish ver.
今日の🫧
http://archive.Today/2024.10.30-023911/https ://www.google.co.jp/
も日本語版で後でもプレイしたかった
⬆
↕
https://web.archive.Org/web/20190809075335/https ://web.archive.org/
例のイースターエッグは2019/08/09から仕込まれていた模様
他のページにも在るのか??w
⬅
https://web.archive.Org/web/20170421230602/https ://web.archive.org/
2017/04/21からのはスライドの最後が置いてけぼりになる仕様
➡www.nhk.or.jp/ohayou/digest/2018/10/1018.html
のアドレスに置いてけぼりの画が在った記憶
だがアーカイブし忘れて又かくの如し。
>>870 数日前までずっと出てた。昨日は出ずに読み出せた。だがしかし現在そうなってると言われても信じる
それぐらい不安定で一進一退してる
セキュリティチェックのため機能は一時停止する事もあると前から説明されているのだが 誰も公式発表を見ていないのである
進展あった?
>>884 まあ不安になるのもしゃーないだろ
わざわざ海外のX見る人のほうがまれだろう
アカウントでログインできるようになったけど Account settings のページは白紙のまま
なんかsaveだけ出来ないがサイバー攻撃でも受けてるんか?
/save/ 以外にも色々と出来てない 先月初旬のサイバー攻撃からの復旧作業中
>>885 近日には動きがあるようなことがいわれてるが、果たして・・・
>-Save Page Now coming soon
blog.archive .org/2024/10/28/internet-archive-services-update/
>>890 煩わしいからリンクは直リンにして
🔜
https://x.com/internetarchive/status/1851021456928305647 優先するのはログイン機能の方なのか?
流出って騒がれる割に、フィッシングメールが来る以外に実害に遭ってる奴いるのかな?
登錄者で何か被害に遭ったらこのスレにレポ4649
>>884 💳カードのセキュリティコードって
保存してるサイトばかりだヨネ
>>889 📊
https://web.archive.org/web/*/https ://web.archive.org/
同一のスナップが毎日毎日何百回も執られてるけど
完全同一の重複分をリダイレクト処理してなかったら容量が幾ら有っても足らん詰みゲー
>>882 ↕を査べる時も差分が判らなくて手閒だった
🆙
読み出し速度が遅いので速度の向上も期待したい
のと
archive.Todayには在るショートリンク機能をオプションでほしい
Orgのアドレスでは5chのメアド欄にリンクを仕込めんw
𝕏
archive.Todayは現在、Twitter(𝕏)は執れてるみたいだけど
画像直リンのpbs.twimg.com/media/*
が⥁Loadingから進まずに執れなくなってる
※Twitter(𝕏)の画像直リンアドレスは🔒 ⇄ 🔓でアドレスが変わる
済まない、気持ちはわからないではないが、ちと前に直リンだか先頭だけ省略で書いたら規制に引っかかってさ(100%断定できるわけではないが)・・・
>>893 あーなるほど。
今規制は敷かれてない模様
ディープリンク張りまくってる私がソースw
ドメインの . の閒にスペース入れてるでしょ
それだと
・半角スペースだと入ってる場所がフォントによってはパッと見判り難いのと
・右クリックから検索に掛けた時に該当アドレス(記事)が引っ掛からなくて
🖲から手を離して空白を消す作業が入って二度手閒になる
[ Save Page ]ボタンは押せる様になったけど
503 Service Unavailable
で執れないな
⛓💥
🌗
https://web.archive.org/web/20241104034557/https ://doodles.google/doodle/rise-of-the-half-moon/
❔
https://web.archive.org/web/20220524034952/https ://image.itmedia.co.jp/l/im/news/articles/2107/30/l_koya_ibmfont5.jpg
以前からこの様に、サイトの一部の画像が表示されないパターンがあるのだけど、
・読み出しエラーで時間を置いて後からアクセスすると画像が表示されるパターン
・取得ミスで画像が撮られてなくて表示される事は無いパターン
2パターンがあって紛らわしい
ログインしてクッキー喰ってあると登録ユーザ向けオプションは提示されるけど、
いざリクエストを発行してもクッキーが無視されてるな。
Outlinks は拾えと言っても拾ってくれてないし、
一分間のリクエスト数上限 3 件とかいう縛りプレイ、話にならん。
ログインしてるのにこれは無いよ
>>900 もうちょっとシステムに絡んだ面白いことを言えよ低能
そりゃ
https://archive.org/details/software から拾ってくるのは割ればかりだけどw
Save Page Now による保存が心なしか速くなっているような気がするのは気のせい?
恐らくリクエストの総数が減ってるからじゃないかなぁ。
クッキーも S3 API Key もユーザ認証は機能してないらしく、
https://web.archive.org/save/ で URL を入力する分には非ログインとして動作するけど
JSON を使う方は 401 Unauthorized となって何もできない状態。
>>903 認証に失敗するので「再開にあたって今までの key を無効に
したのかな?」と思って Get Your S3-Like API Keys ページに
行ってみると secret key が変更されていました。
書き換えて認証に成功しました。
>>904 あーほんとだ、ありがとうございます!!
>>897 >>899
1分間に3件まで、1日に200件までは復旧まもないゆえの肩慣らしなのか、それともまさか今後はそれがデフォルトなのか・・・
「Job failed.」が頻繁に出るときは特にきつい
むろん使えないほぼ1か月間よりは増しだが・・・
🔙
https://x.com/internetarchive/status/1853545508121567287 (発表が)後手後手な広報w
>Web pages archived since October 9 will start being added to waybackmachine.
November 4じゃないのはどういう意味?
🗓
https://web.archive.org/web/20240000000000*/https ://www.google.com/
空白期間は 2024/10/10 ~ 11/4
だけど2日に執られてるの在るな
>>896 の❔
画像が表示されてなかったんだけど
昨日 /20241104065933/ が執られた後に表示される様になって、
2022年の /20220524034952/ に表示されてる画像は
2024年の📁
https://web.archive.org/web/20241104091531im_/https ://image.itmedia.co.jp/news/articles/2107/30/l_koya_ibmfont5.jpg
となってる。(※右クリックメニューの「画像を新しいタブで開く」から画像だけを表示できる)
これって
・取得ミスで画像が撮られてなくて表示される事は無いパターン
の過去スナップは、
同一アドレスの当時とは違う未来画像がオーパーツされてしまう仕様では?
𝕏/🖼
archive.TodayのTwitter(𝕏)画像直リンアーカイブ不可は、
画像直リンアドレス🔗「pbs.twimg.com/media/~」を𝕏内でポストして
そのリンクを右クリックから[リンクをコピー]したTwitter(𝕏)のショートリンクアドレス🔗「𝑡.𝑐𝑜/~」
で保存を懸けるとリダイレクトしてアーカイブする事がreached for the moon
📫
5chのメアド欄リンクは専ブラからしか見れない模様
2ch(sc)の方ではメアド欄リンクが再現されない仕様だった
ログインできてアカ削除しようとしたら読み込みが終わらずメアドだけでも変更したら変更を受け付けなかったよ
>>911 発障さん乙
どういう状況なのかさっぱり解らん
>>909 https://warp.ndl.go.jp/contents/reccommend/world_wa/index.html 閲覧だけで良かったらいくつかあるようだが、取得までできるのはarchive.todayかウェブ魚拓ぐらいしかないかと
ただ、後者はIAより厳しい1日60件まで
前者が1日何件までなのかは特に見あたらないが、少なくとも後者よりはゆるいか(最近60件どころではないレベルを取得したことだし)
・大規模アーカイブ ・閲覧・保存が可能 ・運営元が明確 の3つを満たしてるのはIAくらいしか無いだろうね
archive.todayは同じドメインのURLを17000以上アーカイブするとNginxに飛ばされる
ログインからアカウント設定に入りパスワードの変更はできるようになったけど メールアドレス変更がまだできないね。 新アドレスを入力して、認証 URL の記載されたメールが届く所までは良いけど その URL を開いてもエラーとなって機能していない。 アカウント削除と表示名変更は試してないので判らない。 (一度使用した表示名は「使用済み」となって、元の所有者ですら戻せないシステムだったはず・・・)
4日の再開後に執れてたアーカイブ、 再アクセスすると >𝐇𝐫𝐦. >The Wayback Machine has not archived that URL. >Click here to search for all archived pages under ~ となってて表示されなくなってるarchivedが存在する模様 今⛓http://2chb.net/r/win/1642086530/879n の2番目の🔗がその状態 (⬆>>786 の /web/0if_/ を活用) 🌌のno+eのは >a snapshot was captured. visit page: 🌌https://web.archive.org/web/20241106035458/https ://note.com/onopko/n/n37d8740b2f84 >there was a delay in registering this snapshot with the wayback machine. >you may be redirected to a previous version right now. >this snapshot will be available later. からずっと𝐇𝐫𝐦.で一度も表示されない >>896 の❔は、 ウェブ開発ツールから視れる画像のURLが✅https://web.archive.org/web/20220524034952im_/https ://image.itmedia.co.jp/news/articles/2107/30/l_koya_ibmfont5.jpg となってるけど 存在してなくてリダイレクトで>>910 📁になってる模様 復旧の調整でのthis snapshot will be available later.じゃなかったら Orgはシステム的にTodayよりぁゃιぃ 🆜https://archive.Today/9VIeR/image ロングリンクがほしいTodayの足元がおるすなスクリーンショット機能 >>917 Sign upで使ってたらどんなメリットが或ったのかkwsk 1分・1日に取得できる件数が違う
ただ、今のところ
>>897 >>899のとおりだが
アーカイブチームが図書館zのプロジェクト開始してるっぽいな というかveohも閉鎖するんだなアーカイブチームのwikiで気づいた
IAってマンガ図書館Zみたいな電子コミックサイトの画像ちゃんと保存されるのかね
>>918 の⛓、
その後 3番🔗4番🔗も𝐇𝐫𝐦.化
>>910 🗓の2日と3日の🔵も消えてる事から、
11/2日~7日に執られたarchiveがランダムに消えたと想われる(1番🔗は生存)
2番3番4番🔗は先ほど再取得したら表示される様になった(capture数は1)
🌌のnote.comはOrgでは執れない模様
>>897 ,
>>921 ☑Save screenshot
がToday(
>>918 🆜)の様にアドレスがあるものだったら
例にここに貼ってみて
絵文字は読みづらい 情報は嬉しいんだが普通に書いてくれ…
HTML フォームからアーカイブを採る際の縛りプレイ状態、このままでは埒が明かないので
HTTP ヘッダを操作するブラウザアドオンで Authorization ヘッダを挿入することにした。
Outlinks もちゃんと拾ってくれる。
https://web.archive.org/save/status/user もエラー無く保存件数等が確認できる。
https://web.archive.org/save/ のページ自体はクッキーしか見ていないので、
この入力フォームを使う場合はクッキーも喰っておく必要あり。
>>926 🔗🔵𝐇𝐫𝐦.の件は、 本日早朝に復旧された模様 こういう細かいトラブル情報もTwitter(𝕏)で発信してくれヨナ 無駄ァに二つスナップを執ってしまった 『https://web.archive.org/web/20241107192258/http ://hobby-room-pearl.%73akura.ne.jp/jump/daiamon/74-07-jojo2-3.jpg』 >>910 ❔📁オーパーツ化問題はそのまま 画像部がミスキャプチャで読み出せない大過去のアーカイブは多い >>927 普通=オールドタイプ なので無理 絵文字は ・引用用のタグ ・リマインダー(リンク先に何が在ったかの要約) で用いてる 使わなかったら更に説明文が入って無様ね 読んでもらう為にレスを書(置)いてるのではないので 無理に読まなくても大丈夫だ、問題ない 絵文字は元Twitter社員のtwemojiがエモいので 🔀https://github.com/13rac1/twemoji-color-font で置き替えておいた方がベネかもね >>929 >HTTP ヘッダを操作するブラウザアドオンで Authorization ヘッダを挿入することにした。
そこのところが気になる
それを導入して前と同様に使えるのならぜひ導入したいが
所でarchive.orgのコレクションの新規アップロードってまだ出来ない感じ?
特に上げるもん無いけど物の試しにアップロードページへ行ったらこんな画面になるんだが…
https://archive.is/kOZWG/f002d291c83ae0be7211a02f27dede9a81e685dd.webp >>927 こいつの情報、ここでは既知の情報しかないぞ
noteが取れないとか何年前の話だよ
>>933 https://archive.org/about/403.html ですね。
>>917 のメアド変更の認証 URL も同じリダイレクト、
まだ復旧していない機能を使おうとするとそこに飛ばされるのだと思います。
>>932 アーカイブリクエスト時のユーザ認証が完全に死んでるかと思っていたのですが、
>>904 さんに API key による認証が機能していることを教えていただいたので
(パスワードが変更され認証失敗していただけだった)
ブラウザからもそれを使うようにしてみた次第です。
ここで API key の送信に使っているのが Authorization ヘッダ、
Save Page Now 2 Public API Docs (
>>3 ) の Capture request の項に説明があります。
ニコニコ静画を取ろうとしたら
https://www.nicovideo.jp/region_restriction にリダイレクトされてしまった
エロ系以外でも地域制限かかるのかよ・・・
☑https://web.archive.org/web/20240801142256/http ://web.archive.org/screenshot/https://webapps.stackexchange.com/ ☑Save screenshot機能ってのは☝らしい 現在、そのスクショのアーカイブアドレス: 🔲https://web.archive.org/web/20240801142248/https ://webapps.stackexchange.com/ はアーカイブではない元のURLにリダイレクトされてしまう仕様になってる然様 こういう時の為に使うのか? ・スクリーンショット ⇄ アーカイブの切り替えがTodayの様に出来ないのと、 ・Orgのスクリーンショットは足元は居留すけど画質がjpgで劣化しててリテラが低い Todayは無劣化のpng(>>918 🆜) >>933 に使われてるGoogleの新規格のWebPは 圧縮率がpngよりも高いけど、 可逆(VP8L)と不可逆(VP8)で拡張子を別けて定義できないGoogleは理念が低い SEOにページ表示速度を入れてるが、 速さよりも質 速度は後から改良が見込めるけど質は上げ治さない限り不良(WebPには上限も在るらしい) ♊ 2ch(sc)のアーカイブがOrg, Today共に執れなくなってる 2ch(sc)は1000落ち後のdat化をミスって >[エラー] >datが存在しません。 になるスレが在ったから、アーカイブを執れないと🜄物 この近頃多発な執れないドメイン問題、 正体不明のToday: 🪆https://gigazine.net/news/20240326-archive-today/ には、どんな手を遣ってでも執れる様に期待w >>934 🙈→>>829 🪬http://2chb.net/r/hard/1717147167/1000n 𝐇𝐔𝐌!→𝐇𝐫𝐦.でバイツァダストが关ってるとか本来は生涯を通して知らせる事は無い http://thai.jinsei.link/jumborg-ace-toy-thailand/ ↑を取得しようとすると、404なってしまう
ほかのサービスだとウェブ魚拓はNG、Archive.todayはOK
ヘルプページが死んだままだからって API も死んだままとは限らんよね
新規にページ保存しても保存されてない扱いで返ってくるな… またクラッカー共にやられてんのか?
>>947 クッキーによるユーザ認証が復活していますね
その前も Authorization ヘッダで認証すれば outlinks は拾ってくれていました
絵文字糖質は今週末は休みかなw
メールアドレス変更を試して、認証 URL が機能せず失敗、を何回か繰り返すと制限が掛かるのね
本垢でやらなくて良かった
新規アカウント認証用の
https://archive.org/account/verify.php は動いてるけど
メアド変更認証用の
https://archive.org/account/verify-email.php はエラーのまま
authorization: LOW =
>>949 のWAISのスコアがLOW
なシークレッドコードにも一生気付かなそう
@internetarchiveのポスト見ても絵文字がどーたら言ってんのかな
>>ssspは
>>793 で必要の無い99を調べてる処からもLOW
統合失調者の20年近く前の記憶など訊いてない
0 = 最古が事実
正直ssspのレスは登錄する必要がない輩 = HIGH(myaccesskey:⬆)には只のゴミレス
>>936 Todayの様な匿名サイトで再構築しないと
>>939 の🔲な事態となるのがLaw
𝐇𝐫𝐦.化したアーカイブは
時限で治ってるリンクと治らないリンクがある様なので
再チェックが必要
>>950 もうちょっと根本的な反論をしてみろよ低能糖質
SSブログ(so-netブログ)がサービス終了だって
俺環だけかもしれないが、21時台から(それまではなんともなかった)
https://web.archive.org/saveまではつながるのに 、取得しようとするとNot FoundだったりService Unavailableだったり
と思ってたらJob failed.とかSave Page Now could not capture this URL because it was unreachable.とかThe server didn't respond in time forとか出るもののつながった
>>582 2024/12/20 閉鎖 vectorの作者個人ページ
>>505 2025/03/31 SSブログ終了
https://blog-wn.blog.ss-blog.jp/2024-11-15 やれやれ、
SSブログはArchiveTeam辺りが取ってくれないかな 頼み方?が分からんけど
これホスティングしているブログのID一覧って取る手段ない感じ?
新着記事一覧とか見てもページングが20件くらいしかない
URLの形式はこうと。
https:// [*].blog.ss-blog.jp/
新着1000件はこれで見れるが…
https://blog.ss-blog.jp/index.xml 2024/09/30 閉鎖 アキバ総研
>>524-527 2024/12/20 閉鎖 vectorの作者個人ページ
>>505 2025/03/31 閉鎖 魔法のiらんど
>>653 2025/03/31 閉鎖 SSブログ
https://blog-wn.blog.ss-blog.jp/2024-11-15 あれ、iらんどと同じ日なのか…
そうか必要なのは blog.ss-blog.jp のサブドメイン一覧か 勘違いした申し訳ない
>>961 それだと既にアーカイブされているURLしか見つからない訳で、
既にアーカイブされてるなら、あれ もうする事なくねって思っちゃう…
まあ各ブログの個別の記事を改めて明示的にアーカイブするとかあるけどさ。
>>963 ええ、勘違いです申し訳ないです
ざっと見たところでは、全部取れそうな場所は見つかりませんでした
>>964 サンキュー。
vectorはurlが連番だったから全部叩いて一覧作れたけど、
こっちはそうもいかず か…。
EchoAPIはAPIの管理とテストをシームレスに行うためのツールとなっていて、Web開発もずっと簡単で効率的にしてる!
>>920 IAと契約して魔法使いになってよ 通常英語になるアマゾンを日本語でアーカイブさせた例 一般人:https://archive.is/FVU6Z 買った商品の記録に「おま国」発動 This item cannot be shipped to your selected delivery location. Please choose a different delivery location. 魔法使:https://archive.is/wEGlh 一般人:https://archive.is/pNf8p 魔法使:https://archive.is/HPeoy 5chの古いスレの過去ログが復活したから見れるうちにアーカイブ
復活した過去ログは
https://itest.5ch.net/kako/test/read.cgi/ 板名/1690495133
https://kako.5ch.net/test/read.cgi/ 板名/1690495133
この2パターンあるけどまあどっちでもよさそう。個人的には前者の方が見やすい。
しまった、マンガ図書館Zも明日閉鎖か!
マンガ本体はともかく作品一覧だけでも作っておこうと思ったんだが…もう遅い
2024/09/30 閉鎖 アキバ総研
>>524-527 2024/12/20 閉鎖 vectorの作者個人ページ
>>505 2024/11/26 12時 閉鎖 マンガ図書館Z
https://closing.mangaz.com/info/2114/index.html 2025/03/31 閉鎖 魔法のiらんど
>>653 2025/03/31 閉鎖 SSブログ
https://blog-wn.blog.ss-blog.jp/2024-11-15 今年はサービス終了地獄だったな 来年とか更にどうなってしまうのか
>>969 復活したけど .dat が無いんよね・・・
>>973 懐かしいなあ
5ch の API 騒動が始まったころ、専ブラに刺した串で試したことがあります
このままいくと2000年代のネット情報は殆ど何も残らなくなりそうだな ガラケー関係は既に死滅状態だし
10年以上前の個人サイトのエロ小説とかこう残ってたらなあと期待するがそううまくいかんな
エヴァのオリキャラ上等時代のSSとかどこにあるかな 当時のGAINAXは許可サイトのURL一覧ページ作っていたからそこから辿れば見れるかな
>>954 ソラ、Soよ >>967-968 なのラ! ≫953🙉はSikiのデフォルト設定にすらDerezzedされてる事も死ぬまでシラなソう >>955-956 アーカイブしたページがランダムに𝐇𝐫𝐦.化して未採取になるバグの残存リンクも19日に復旧された 4日に執って検証用に再アーカイブを賭けなかったリンクは19日迄ずっと𝐇𝐫𝐦.状態だった >>939 🔲のStack Exchangeも現在はリダイレクトされずにアーカイブが表示される が、 currently facing some limitationsな𝕏(Twitter)ら辺は、訴えてやられたら全アーカイブボッシュート鴨葱(ビッグデータ至上主義) そもそも🏛Internet Archiveは、 IA/イエーイ “われ”がダウソたら、🛂https://www.aozora.gr.jp/cards/000879/files/127_15260.html 。 Wayback MachineにLog in機能は要らん ⌫24時間以内同一IPからならミスキャプチャアーカイブを削除できる機能 がOrgにもTodayにもジェバンニにも要る Orgはミスキャプチャが多過ぎ! ・note.comの不可文が >Sorry. >This URL has been excluded from the Wayback Machine. ではない>>918 🌌 ・オーパーツ(>>910 ❔📁: 無納アドレスを納近アドレスに代替してしまう>>793的なバグ) が繼続 >>>>>>882 ➡ ≒ ⬏https://web.archive.org/web/0if_/https ://pbs.twimg.com/media/GdcL8DKaMAAA94R?format=png&name=orig >>970 https://info.seesaa.net/article/505833903.html 閉鎖では(現状)ないが、Seesaaブログ運営会社がしたらばに変更
そういやしたらば(ライブドア)掲示板も過去との連続性どうなってんだろうな
大昔に作って放置されてる掲示板とかどうなってんだろ
>>981 >>970
SSブログのファンコミュニケーションズってどこかで聞いたことあるなと思ったらSeesaaブログの会社か
1つは廃止、1つは他社に譲渡するとはどこで違いが出たんだろうな
vectorの個人作者ホームページ終了まで残り20日
アーカイブって訳じゃないけど一覧は作って公開した。他に出来る事って無いよね
x.com でこんなのが出た。
>>984 アキバ総研の時にも一覧サイト作ってた人か、ありがてえ...
あとはアーカイブしていくだけだな
手始めに一覧サイトの1~270ページ目のFirst Archihveをいただいておいた
🔭https://web.archive.org/web/20210708121508/https ://kemur.jp/retro-star-viewer-210607 Org恒例の画像が表示されないパターンのアーカイブだったけど、 ダウソ板で使う予定の一枚を11月28日にキャプチャしたら他画像も2024/11/30から未来トランクス 現在は、サムネが途中からひどくありふれたホワイトノイズだがTodayからは観らるる: 👍https://archive.Today/Gj67i 🏛https://archive.Today/vcfxp >同時点で収集されたものとは限らず、1年以上の時間差があることも稀ではない。 🧳 実際に同一URL差し替え異画像をチェ───ンジ!!!!!しもうてたら//web.chimera.orz/ 🖼画像の欠けたアーカイブは、クローラーやsave-page-now-outlinksの仕業じゃ! >>>134-143 このポンコツ仕様、中の誰一人としてコレジャナイと思わんのか? >>918 ❔✅アドレスはoutlinksの無納 ∴ outlinksは(゚⊿゚)イラネ 複アカまで使ってキャプチャ数制限をリミットブレイクしちゃってるこのスレの██は セーブしたアーカイブの🧬 なんてまずcf.してないヨネ。██だから >>910 🗓 OCT 11~NOV 1が🈳だったのが現在は🔵 ご乱立botクローラが無駄ァに重合しまくってるナニコレ珍千景、 NOV 24の8450 snapshotsとか総アーカイブ数🜄増しの為にやってんの?w 🔵は、統合者ならクローラ採取や直前との差分発生を記号や色で標示するけどな(💠な区画型アイコンだと多彩標現可) 🇧🇷のURLを5chに記入出来なかった自称魔法使の>>967 >>978 ⬏のクッキーさんのツイートをダウソ板で遣う調和だから魔法でアーカイブ録っといて それ、𝕏からログアウトしてると観測問題できない特殊アドレス 🂡 あべべのべを🚉https://archive.Today/vcfxp/image したのは 山上ではなく式神なのは🤫デスけ ⌦⛎ http://www {1~20}.plala.or.jp/名前
http://business {1~4}.plala.or.jp/名前
ちょっと見てみたら紅白歌合戦完全マニュアルってサイトはぷららホームページサ終と共に閉鎖するそうな
http://www1.plala.or.jp/nakaatsu/ こういうサイトが結構多いかもしれない
>>991 うおっこれは知らんかった。しかも発表済みだったのか
Internet Archive総合 (web.archive.org) #6
http://2chb.net/r/esite/1733289042/ テンプレの
>>8 次スレに貼ろうとしたら吸い込まれたんよね
>>996 どうやら可能+URLが規制対象になってるっぽい
可.能になおして貼っておいた
>>997 そういえば、そんな組み合わせをターゲットにした規制がありました
ありがとうございます
-curl lud20241224022020caこのスレへの固定リンク: http://5chb.net/r/esite/1690495133/ ヒント: 5chスレのurlに http ://xxxx.5chb .net/xxxx のようにb を入れるだけでここでスレ保存、閲覧できます。TOPへ TOPへ
全掲示板一覧 この掲示板へ 人気スレ |
>50
>100
>200
>300
>500
>1000枚
新着画像 ↓「Internet Archive総合 (web.archive.org) #5 YouTube動画>3本 ->画像>69枚 」 を見た人も見ています:・Internet Archive総合 (web.archive.org) #1 ・Internet Archive総合 (web.archive.org) #2 ・Saint Snow PRESENTS LOVELIVE! SUNSHINE!! HAKODATE UNIT CARNIVAL 〜Aqoursイベント総合スレ119日目 ・【F2/Power3】 Umidigi 総合 Part 48【A3S/A3X/Uline】 ・Horizon ホライゾン Zero Dawn/Forbidden West 総合 part85 ・【PS4】Destiny総合 part928 【デスティニー】 [無断転載禁止]©2ch.net [無断転載禁止] ・【匿名通貨】Verge総合 Part.22【XVG】 ・【匿名通貨】Verge総合 Part.25【XVG】 ・TBSチャンネル総合 Part730 (c)2ch.net ・【MHW】MONSTERHUNTER WORLD MOD総合 part3 ・【IE10】 Windows Internet Explorer 10 Part5 ・【VR】SteamVRソフト総合 Part47【Vive/Rift/WinMR/Pimax】(ワッチョイ有) ・【VR】SteamVRソフト総合 Part30【Vive/Rift/WinMR/Pimax】(ワッチョイ有) ・【VR】SteamVRソフト総合 Part28【Vive/Rift/WinMR/Pimax】(ワッチョイ有) ・【プロセカLIVE 1st-Link】初音ミクLIVE総合 part454【MIKU WITH YOU 2021】 ・【VR】SteamVRソフト総合 Part19【vive/Rift/OSVR/FOVE/WinMR/Pimax】(ワッチョイ有) ・Nintendo Switch総合スレ★273 (c)2ch.net ・【HMD】SteamVR総合 Part99【VIVE/Rift/WinMR】 ・Horizon ホライゾン Zero Dawn/Forbidden West 総合 part81 ・Horizon ホライゾン Zero Dawn/Forbidden West 総合 part114 ・Horizon ホライゾン Zero Dawn/Forbidden West 総合 part118 ・Horizon ホライゾン Zero Dawn/Forbidden West 総合 part102 ・NHK総合を常に実況し続けるスレ 140610 Nothing's Carved In StoneVS9mm Parabellum Bullet ・
2ch
画像
動画
23:41:56 up 2 days, 45 min, 0 users, load average: 9.49, 10.70, 10.62
in 4.0120851993561 sec
@4.0120851993561@0b7 on 011513