Witaj, świecie! Czyli nowe miejsce blogu.

Drodzy Czytelnicy.

Zapewne wielu z Was zachodzi w głowę, dlaczegóż, ach, dlaczegóż to nie ukazują się nowe wpisy blogowe. Ma to swoje przyczyny, a lenistwo bynajmniej nie znajduje się na końcu listy. Ale lenistwo - rzecz oczywista, o czym tu się rozpisywać. Zatem pokrótce wymienię kilka innych:

  • Zacznę od tego, że najsampierw Święta troszeczkę mię rozproszyły i minęło kilka tygodni, zanim przypomniałem sobie, kim jestem, skąd przyszedłem i dokąd zmierzam.
  • Przystąpiłem do prac migracyjnych blogu z dotychczasowej lokalizacji, jaką są serwery naszego ólubionego Gógla, na własny. Po temu można wskazać wiele dobrych przyczyn. Jedna z nich, to niejasne kwestie prawne, gdy treść znajduje się na korporacyjnym dysku.

Przemawiają za tym zapisy regulaminów, którym podlegamy jako użytkownicy usług firmy Google:

Przesyłając, wgrywając, dostarczając, zapisując, przechowując, wysyłając lub odbierając materiały do lub za pośrednictwem Usług, użytkownik udziela firmie Google (i jej współpracownikom) ważnej na całym świecie licencji na wykorzystywanie, udostępnianie, przechowywanie, reprodukowanie, modyfikowanie, przesyłanie, publikowanie, publiczne prezentowanie i wyświetlanie oraz rozpowszechnianie tych materiałów, a także na tworzenie na ich podstawie opracowań (dzieł pochodnych, na przykład przez wykonanie tłumaczenia, adaptacji lub innych zmian w celu zapewnienia lepszego działania z Usługami). Użytkownik w ramach tej licencji przyznaje prawa w ograniczonym celu obejmującym utrzymywanie, promocję i udoskonalanie Usług oraz tworzenie nowych. Licencja pozostanie w mocy nawet wówczas, gdy użytkownik przestanie korzystać z Usług (dotyczy to na przykład wpisu o firmie dodanego w serwisie Mapy Google). W niektórych Usługach mogą istnieć sposoby uzyskania dostępu do umieszczonych w nich treści oraz usunięcia ich. Ponadto w pewnych Usługach obowiązują warunki lub ustawienia, które zawężają zakres wykorzystania przez nas treści przesłanych do tych Usług. Użytkownik musi mieć niezbędne prawa do udzielenia powyższej licencji na wszelkie materiały, które przesyła do Usług.

I dalej:

*Google może w swoich usługach, w tym w reklamach i innych materiałach o charakterze komercyjnym, wyświetlać nazwę profilu, zdjęcie profilowe oraz czynności wykonywane przez właściciela konta Google w odniesieniu do posiadanego konta Google lub aplikacji innych firm połączonych z kontem Google (takich jak kliknięcia +1, opublikowane opinie oraz komentarze) Szanujemy wybory użytkowników w zakresie ograniczeń udostępniania lub ustawień widoczności konta Google. Na przykład można tak dobrać ustawienia, aby nazwa i zdjęcie użytkownika nie pojawiały się w reklamie.*

Choć zapisy te wydają się precyzyjne, trudno dziś przewidzieć, w jaki sposób mogą zostać wykorzystane. Ponieważ moja strona liczy sobie już lat kilkoro, przestała być tylko zabawką, stała się uczestnikiem Sieci - chciałbym mieć nad nią odp. kontrolę. Wytłuszczone fragmenty brzmią co prawda groźniej niż zapewne w intencji oznaczają, ale, dopuszczają one, z mojego pktu widzenia niedopuszczalne, np. skasowanie treści przeze mnie opublikowanych, szczególnie, gdy zdaniem amerykańskich prawników naruszają jakieś amerykańskie prawo. Poza tym w dalszych częściach typowo amerykańskiego, stanowczo zbyt długiego, regulaminu następują akapity o wyłączeniu odpowiedzialności itp. Co prawda odpowiedzialności nie ponosi żadna z amerykańskich korporacji, bez których współczesny świat sieci i komputerów by nie istniał. Tak czy owak, wolę treści przechowywać "u siebie", ewentualnie je Góglowi udostępnić na warunkach partnerskich.

Stąd całe to posunięcie.

  • I na koniec mały powrót do stenografii. A właściwie stenotypii: od kilku miesięcy prowadzę badanie w celu stworzenia polskiej metody stenotypii.

Wymaga to mocy obliczeniowej, bo kilka lat temu z kolegą No-qankiem, na użytek tego właśnie projektu, zgromadziliśmy korpus językowy w pliku tekstowym o rozmiarze ponad 280MB, co, zgodnie z ostatnio wykonanymi obliczeniami oznacza, że zawiera on:

  • Liczba słów w głównym korpusie: 37779938 - czyli prawie 38 milionów, a będzie więcej, bo ciągle dokładam nowe teksty,
  • Liczba unikalnych słów w głównym korpusie: 944636  (czyly prawie milion) - unikalne słowa to także te same słowa występujące w różnych formach gramatycznych

Czyli ok. 35mln poprawnie napisanych słów. Przy średniej 3 sylaby na słowa daje to ok. 100mln sylab.

Zamierzam oczywiście mieć także tabele relacji (poprzednia-ta-następna) dla słów i sylab, tabelę unikalnych sylab (czyly po 1 na daną sylabę), tabele nagłosów i wygłosów...

Ale to nie koniec. Komputer właśnie prowadzi drugą serię dzielenia na sylaby (które są podstawą pisania stenotypicznego) Słownika Języka Polskiego  liczącego ponad 2,5 miliona słów we wszystkich formach gramatycznych. Pierwszą serię dzielił z prędkością 3-4 słowa na sekundę i zajęło mu to tydzień. W międzyczasie poprawiłem skrypt dzielący, więc teraz dzieje się to szybciej, ale myślę że i tak może mu zejść do najbliższego wtorku.

Wyżej opisane prace stanowić będą dopiero podstawę rzeczywistych badań sylab i słów. Na początek zechcę sprawdzić:

  • jak się rzeczy mają z sąsiedztwem, tj. które słowa oraz sylaby "lubią się" z którymi, a z którymi przeciwnie - "nie lubią się",
  • ile istnieje w języku polskim nagłosów oraz wygłosów sylabowych,
  • jak się rzeczy mają z sąsiedztwem, tj. które nagłosy "lubią się" z którymi wygłosami, a z którymi przeciwnie - "nie lubią się",
  • czy występują nagłosy bądź wygłosy, które mają niezwykle rzadkie zastosowanie i można je "uśrednić" przez dodanie do jakiejś częściej występującej cząstki

Z powyższego być może wyniknie, czy istnieją takie związki słów/sylab, którymi warto obciążyć pamięć stenografa jako pojedynczym obiektem (np. słowo "albo" powiedzmy, ewentualnie "dlatego, że").

I tak dalej.

Zatem trzymajcie ręce na pulsie, a jeżeli wśród Was jest ktoś, kto chciałby pomóc, to niech się co prędzej zgłosi, roboty jest huk, dla wszystkich wystarczy.

Autor: @flamenco108 kategoria: