Jak to funguje?

Pan starenka vysvětluje: V podstatě vezmu nějakej vzorek textu a zbavím ho veškerejch věcí, který s vlastním textem nemají nic společnýho (HTML, Javascript). Co zbyde se rozseká na slova a z nich se udělá model N-gramů, což je něco jako zjištění všech kombinací ntic slov v textu (ngramům se dvěma slovama se říká bigram a se třema trigram) a jejich frekvencí. Na základě toho modelu se pak vygeneruje text. Na začátek textu se používá prvních pár ntic modelu. To není úplně ideální, takže generuju ještě jeden krátkej text a počáteční slova beru z něj.

Hele, chci udělat něco podobnýho...

Kostra těhle stránek bylo víceméně tohle. Jinak zdroják Laholátoru najdeš taky na GitHubu. Klidně si posluž.