Dla angielskiego tak, dla polskiego nie wiem jak wygląda kwestia słownika. Wiesz, to taki egzotyczny język
Myślę, że do Midline’a warto będzie użyć solr
Polecam też przetestować jak sobie poradzi jeszcze zanim na dobrze go zaimplementujecie. Stemmer używany przez Solra dla j. polskiego jest oparty o dość specyficzne teksty (i nienajnowsze). Teoretycznie użyto analizatora morfologicznego do pokrycia brakujących słów w korpusie testowym, ale o ile dobrze widzę ten analizator też jest dość leciwy i trzeba by zobaczyć, jak sobie poradzi w praktyce.
No, ale to już są moje pesymizmy językoznawcze.
Udam, że zrozumiałem
@kuba-orlik tl;dr nie uwierzę, że działa dobrze, dopóki nie zobaczę w praktyce, a wtedy zrobię wszystko, co w mojej mocy, by udowodnić, że jednak nie działa.
Na studiach pamiętam, że korzystaliśmy z Lucene.
Poza tym w trakcie szukania mignęło mi coś takiego Norch oraz Lunr.
Może się przyda
To biblioteka, na której opiera się Solr i Elastic(dodają Lucene supermoce w stylu shardowania, replikacji itp.).
Z obydwoma pracowałem i jestem zdania, że możecie mocno odczuć narzut z powodu utrzymywania tych serwisów w projektach. To po prostu kolejne bazy danych, które mają swój cache, mogą mieć problemy z wydajnością i wypada je ująć w monitoringu lub zadbać żeby aplikacja jeszcze działała jak one przestaną(zdarza się, dlatego Elastic zaleca instalować w klastrach a nie pojedynczo).
Jeśli macie statyczną treść to przyszłościowo będzie użyć czegoś po stronie klienta, np. wspomniany przez Piotra Lunr lub rozwiązanie analogiczne do tego co ma Sphinx(https://kb.jakski.name/search.html?q=ssh&check_keywords=yes&area=default - na pewno jest jakaś biblioteka o podobnej funkcjonalności).