Budování univerzálního slovníku



Kousek historie
  • Do 1955: V předpočítačové éře existovaly rozličné slovníky, často v dobré kvalitě, nicméně nebylo možno s nimi kumulativně pracovat
  • Do 1980: V počítačové éře I vznikly rozsáhlé plány a uskutečnily se jejich náznaky: slučování slovníků, doplňování morfologie, slučování s encyklopediemi, expertní systémy.
  • Do 1995: V počítačové éře II se tyto plány rozličnými způsoby realizovaly: vznikl WordNet a jiné fondy, vznikaly rozsáhlé morfologie, překladače mezi jazyky a vyhledávače, vzniklo LSI a rozsáhlé statistické systémy.
  • Dodnes:  Kolem roku 1995 se explicitní zpracování jazyka téměř zastavilo. Sice se něco stále děje na lingvistických fakultách, ale výsledky nejsou volně dostupné. To je dosti špatně:
    • vývoj ve zbytku výzkumné komunity je umrtven,
    • lingvistické fakulty se izolují, což je umrtvuje též,
    • nevznikají inovativní publikace, například o stavbě jazyka, o větných rozborech, nevznikají ani hry pracující s přirozeným jazykem,
    • dusí se činnost otenciálních uživatelů lingvistických dat.
    • Dobře je to vidět na konkrétních případech:
      • Na WordNetu: Ten je uzavřen verzí 3.0, která je dostupná a má kvalitní dokumentaci. Avšak:
        • Dále se nerozvíjí, ačkoli volné směry v existují.
        • Není zájem pořídit jeho volně dostupné překlady do dalších jazyků.
      • Na češtině: Nejsou k mání morfologie, texty slovníků spisovné češtiny, slovník frazeologický, slovník etymologický, slovník věcný a synonymický ani Klégrův slovník synonymický. To všechno je zamrzlé.
    Rozvoj je patrný u statistických systémů, které ovšem mají svá omezení, přes která se mohou dostat pouze s pomocí explicitních (ne nutně ručních) postupů, patrně strojovým učením. 
Vlastnosti moderního počítačového slovníku

Měl by mít formu objektové databáze pro jednotlivá slovníková hesla, neboli záznamy obsahující:
  • definici heslové entity - ta ji určí v rámci slovíku,
  • její označení - v různých jazycích, případně kódových systémech,
  • její vlastnosti - ty ji popíší, včetně vztahů k jiným entitám, grafickému ztvárnění a účasti v rozličných modelech,
  • příklady použití - ty doplňují popis o další charakteristiky.
  • navigační údaje - těch je několik typů:
    • fultextově zaindexované celé heslo, tedy i všechna označení hesla,
    • vlastnosti nad- a podřazenosti, podobnosti, synonymie a vztahu.
Součásti hesla mají být pokud možno ve strojově srozumitelné formě. Systém musí být pružný, tj. dovolovat rozdělování entit, jejich slučování atd. Dobrým východiskem je
  • WordNet,
  • tříděný podle věcného třídění získaného kompilací několika hierarchií, např. PSH, LCC, WordNet, ČSVS.
  • doplněný o překlady,
  • doplnění o syntaktická data,
  • doplněný o sémantická data.
Podrobněji řečeno, každá entita by měla mít:
  • Pro rozličné jazyky:
    • seznam synonym - pokud je synonymum
      • slovo: slovní kmen s morfologií a etymologií
      • sousloví: sousloví s morfologií a etymologií
    • seznam pravidelně odvozených slov: způsob odvození, sémantický příznak.
  • Referenční popis objektu v nějakém jazyce
  • Sémantická data
  • Syntaktická data
  • Atributy nadřazenost, podřazenosti atd. - viz WordNet
  • Výskyty v rozličných nomenklaturách
Slovník má sloužit:
  • Informační zdroj pro lidské uživatele.
  • Porozumění jazyku.
  • Překládání mezi jazyky.
  • Podklad pro umělou inteligenci.

Způsob uložený slovníku záleží na aplikaci, existují standardní způsoby, např. JSON, XML.

Realizace
  • Pracuji se na ní od roku 1985 - sám, nebo když jsem měl více peněz, někoho jsem platil.
  • Tak jsem vyvinul a ověřil jednotlivé složky, což je docela dost práce. Snažil jsem se dojít co nejdál, nesnažil jsem se vyrobit nějaký slovník pořádně, protože to je velká věc, která vyžaduje desítky až stovky lidí. 
  • Konkrétně:
  • Věc se dá pořizovat i postupně, jako pružně doplňovatelné moduly.
  • Teď pracuji na další etapě porozumění jazyku. Plánuji ji tak na 3 měsíce, čili koncem roku bych rád měl průkaznou ukázku (Tak jako teď mám Čítanku matematiky, byť místo 3 měsíců trvala 5 let). Pokud se to povede, ten program sám bude ukazovat, jak slovník vyrábět.