Thursday, 1 September 2016

Archiwum polskiego usenetu

URL: https://archive.org/details/usenet-uat-pl

[Aktualizacja 29.01.2017: http://zgredowo.blogspot.com/2017/01/archiwum-usenetu-stao-sie-jeszcze-lepsze.html]
[Aktualizacja 18.11.2016: Poprawione zostały polskie znaki w opisach niektórych grup i przywrócono widoczność niedostępnych wcześniej wiadomości.]

Pod powyższymi odnośnikami znaleźć można najbardziej kompletne archiwum polskich grup dyskusyjnych (usenetu, newsów). Można je odczytać za pomocą czytnika ze strony https://bitbucket.org/wolfpld/usenetarchive.

Archiwum zostało utworzone w czerwcu i lipcu 2016 roku, przy użyciu następujących źródeł:
Najstarsze dostępne wiadomości pochodzą z 1996 roku. Niestety, mimo użycia wielu źródeł, część wiadomości w dalszym ciągu zagubiona jest w pomroce dziejów (ewentualnie w Google Groups, ale to w sumie bez różnicy).

Archiwum przetworzone zostało za pomocą narzędzi wchodzących w skład Usenet Archive Toolkit:
  • Nie są przechowywane duplikaty wiadomości.
  • Wszystkie grupy zostały potraktowane filtrem od-spamującym (sprawdzane były tylko wiadomości, które zaczynały wątek i pozostały bez odpowiedzi).
  • Wiadomości zostały przekonwertowane na UTF-8, z uwzględnieniem większość problemów związanych z nieprawidłowym stosowaniem standardów przez czytniki, złymi, bądź brakującymi deklaracjami kodowania znaków, itp.
  • Dostępny jest obliczony wcześniej graf zależności między wiadomościami (struktura wątkowania). Jeżeli to możliwe, uwzględnione są również zależności wynikające wprost z cytatów (w przypadku gdy brak jest odpowiednich nagłówków). Jest to szczególnie pomocne w przypadku grup, które były połączone z listami mailingowymi, bądź z FidoNetem.
  • Dostępna jest również możliwość przeszukiwania wiadomości.

No comments: