gts

GTS Tips and tricks

  • Tips - read here
  • Fragments - что такое фрагменты

BUGS

Fixed

  • 0.5 - indexes leaks memory [FIXED] 10.01.2004
  • libsmlm - incorrect trigram generation [FIXED]
  • stemming doesn't works correctly [FIXED] 23.01.2004
  • abstracts contain duplicated sentences! [FIXED] 27.01.2004 there is still duplication with title ! [FIXED] 4.02.2004 duplication with title also has been removed
  • 0.5.4 - indexer eats memory [FIXED] 29.01.2004
  • request parsers burps on nontext symbols in phrases [FIXED] 5.02.2004
  • don't skip when grouping and title is empty [FIXED] 21.02.2004

Not fixed yet

  • MD5-склейка работает не совсем так, как нужно!
  • подсветка не работает для фраз с нетекстовыми символами внутри

TODO

Done

  • <br> stops sentence ? [CHANGED] 23.01.2004 слегка изменил алгоритмы разбора HTML на предложения. С одной стороны, стал корректно отрабатываться случай "покупайте Привет! лучшие соки в мире" (здесь ! не обрывает предложение, т.к. после него идет маленькая буква). С другой стороны HTML тэги типа p и br преобразуются при парсинге в ' . ' (было '. '), что вызывает гарантированное окончание предложения.
  • утилита для выдачи слов обратного индекса [DONE] 25.01.2004 модифицировал dump_index для выдачи разнообразной статистики по обратному индексу
  • склеивание документов с одного сайта по MD5 [DONE] 24.01.2004 Документы с одного сайта теперь склеиваются. Для всех склеенных документов ранг считается отдельно (чтобы показывать первым наиболее часто цитируемый документ), но при подсчете весов ранги суммируются.
  • Добавить сравнение длин слов-кандидатов при равных весах похожести по триграммам. [DONE] 29.01.2004 выпущена новая версия libsmlm 0.0.3
  • [NEW] Слова с символами -, _ (дефис и подчеркивание) теперь добавляются в индекс триграмм
  • Switch astro/msu and pgsql to 0.5.x
  • Add support for word aliases (supernovae = сверхновая) 21.02.04 -- первый вариант написан
  • отказ от выполнения запроса при превышении заданного предела загрузки системы

Not done yet