GTS Tips and tricks
BUGS
Fixed
- 0.5 - indexes leaks memory [FIXED] 10.01.2004
- libsmlm - incorrect trigram generation [FIXED]
- stemming doesn't works correctly [FIXED] 23.01.2004
- abstracts contain duplicated sentences! [FIXED] 27.01.2004 there is still duplication with title ! [FIXED] 4.02.2004 duplication with title also has been removed
- 0.5.4 - indexer eats memory [FIXED] 29.01.2004
- request parsers burps on nontext symbols in phrases [FIXED] 5.02.2004
- don't skip when grouping and title is empty [FIXED] 21.02.2004
Not fixed yet
- MD5-склейка работает не совсем так, как нужно!
- подсветка не работает для фраз с нетекстовыми символами внутри
TODO
Done
- <br> stops sentence ? [CHANGED] 23.01.2004 слегка изменил алгоритмы разбора HTML на предложения. С одной стороны, стал корректно отрабатываться случай "покупайте Привет! лучшие соки в мире" (здесь ! не обрывает предложение, т.к. после него идет маленькая буква). С другой стороны HTML тэги типа p и br преобразуются при парсинге в ' . ' (было '. '), что вызывает гарантированное окончание предложения.
- утилита для выдачи слов обратного индекса [DONE] 25.01.2004 модифицировал dump_index для выдачи разнообразной статистики по обратному индексу
- склеивание документов с одного сайта по MD5 [DONE] 24.01.2004 Документы с одного сайта теперь склеиваются. Для всех склеенных документов ранг считается отдельно (чтобы показывать первым наиболее часто цитируемый документ), но при подсчете весов ранги суммируются.
- Добавить сравнение длин слов-кандидатов при равных весах похожести по триграммам. [DONE] 29.01.2004 выпущена новая версия libsmlm 0.0.3
- [NEW] Слова с символами -, _ (дефис и подчеркивание) теперь добавляются в индекс триграмм
- Switch astro/msu and pgsql to 0.5.x
- Add support for word aliases (supernovae = сверхновая) 21.02.04 -- первый вариант написан
- отказ от выполнения запроса при превышении заданного предела загрузки системы
Not done yet