sigmoid.social is one of the many independent Mastodon servers you can use to participate in the fediverse.
A social space for people researching, working with, or just interested in AI!

Server stats:

612
active users

#yacy

2 posts1 participant0 posts today
Continued thread

After I managed that I connected #yacy with my #searxng instance. Unfortunately yacy is inherently slow, which impacts search requests in general.

The weird way it's gathering results from other peers actually will cause a timeout on the first search with the search terms (unless you set a timeout of 10 seconds or so), but on further refined search passes it's able to provide results in line with other search engines. Kinda weird.

You can try that out under search.wilderland.ovh

search.wilderland.ovhwilderland-searxngSearXNG — a privacy-respecting, open metasearch engine
Continued thread

#yacy by the way is a p2p search engine, which basically has the user do his own webcrawling and share it with other people connected to the network. When you search something on your local instance you first get local results, before results from other people in the network start trickling in.

I kinda dig the concept, but if I can't use it it's a bit futile.

I think #yacy has potential as a search engine, but I really have to check how I could get this to run reliably. The results it gave me were at least interesting, but both on my vps and on my desktop it became unusable within 20 minutes or so. I feel like I am doing something wrong there.

Instead I installed #searxng, which is a self-hosted metasearch engine. And it works quite well, but it still is dependent on huge companies.

gibt es eigentlich ähnliche Projekte wie #yacy nur eine Nummer kleiner?

Ich hätte gerne etwas das als #Proxy funktioniert und einfach nur die Seiten indiziert die ich besucht habe und dann auch nur für mich durchsuchbar.

gibt es da ggfs. etwas das mit #squid funktioniert oder einem anderen Proxy Server?

So I am thinking about launching a #FOSS #searchengine locally. It would cache so when I don't have internet access, I could browse the small web and enjoy great articles. I could also give access to interested friends and family.

Do you have suggestions other than #yacy and #wiby?

Yacy seems better but the search quality is not good. And regarding wiby, it uses #sql for the database :/

Boosts very much appreciated.

PS: The blogs which do #linkdump like @82mhz would be a very good seed. Already roasted meat ready to be served :)

Edit: I thought development of Yacy has stopped. But checking their repo, they are still active:

github.com/yacy

Edit2: On Yacy forum, people complain about bugs and no update. I also have found this: marginalia-search.com/

#marginalla

💡 Très intéressante vidéo de @lecrivainsf sur les moteurs de recherche alternatifs à #Google. Bien qu'aucun ne soit parfait, ils existent et les utiliser à la place de Google contribue à effriter au gré du temps l'hégémonie du géant américain. Gwên revient d'abord sur ce que sont les moteurs indépendants, les méta-moteurs et les moteurs hybrides. Puis elle décrit et donne son ressenti sur #Qwant, #DuckDuckGo, #StartPage, #SearX / #SearXNG, #YaCy, #Brave et #Mojeek. #GAFAM
peertube.iriseden.eu/w/cpTW1kH

**Проблема: Ограниченная доступность децентрализованных поисковых решений на основе YaCy в Gentoo**

**1. Децентрализация vs Централизованные поисковики**
Большинство пользователей привыкли к централизованным поисковым системам (Google, Bing, Yandex), которые контролируют индексацию, фильтрацию контента и ранжирование. YaCy предлагает децентрализованный подход, но его популярность остаётся низкой из-за ряда технических и пользовательских барьеров.
**2. Проблемы установки и совместимости в Gentoo**
Gentoo известен своей гибкостью, но установка YaCy на этой платформе может быть сложной из-за:
Отсутствия официального ebuild в основном репозитории.
Потенциальных зависимостей, конфликтующих с текущими сборками.
Отсутствия подробной документации для интеграции с системой.
**3. Ограниченная функциональность и удобство для конечного пользователя**
Хотя YaCy мощен с точки зрения приватности и автономности, он сталкивается с проблемами:
Высокие требования к ресурсам при индексировании.
Медленная скорость поиска при малом числе узлов.
Ограниченные механизмы фильтрации контента по сравнению с традиционными поисковиками.
**4. Интеграция в экосистему RuTracker.org**
На форумах вроде RuTracker.org востребованы альтернативные поисковые решения. Однако:
YaCy не всегда эффективно индексирует динамический контент форумов.
Необходима дополнительная настройка парсеров для корректного сбора данных.
Малое количество узлов, ориентированных на индексирование RuTracker, снижает качество поиска.
**Вывод**
YaCy в Gentoo и его потенциальная интеграция с RuTracker.org требуют более удобных инструментов развертывания, оптимизации индексации и повышения удобства работы для конечных пользователей.
**Дополнительная база знаний для изучения и исследования**
**1. Официальные ресурсы YaCy**
Официальный сайт YaCy – документация, исходный код и последние обновления.
GitHub YaCy – основной репозиторий проекта, баг-трекер, pull requests.
Форум поддержки YaCy – обсуждения, вопросы и ответы.
**2. Документация и исследования по децентрализованным поисковикам**
DHT (Distributed Hash Table) и его применение в P2P-системах
Сравнение децентрализованных поисковиков: SearX, YaCy, Whoogle
Peer-to-Peer Search Engines: Opportunities and Challenges (ACM Digital Library)
**3. Gentoo и его экосистема**
Официальная документация Gentoo – руководство по установке и настройке пакетов.
Bugzilla Gentoo – поиск и обсуждение ошибок, возможное добавление ebuild для YaCy.
GURU overlay – сообщество разработчиков, вносящих новые пакеты.

**Библиография**
Callan, J. (2000). *Distributed Information Retrieval*. Springer.
Balakrishnan, H., Kaashoek, M. F., Karger, D., Morris, R., & Stoica, I. (2003). *Looking up data in P2P systems*. Communications of the ACM, 46(2), 43-48.
Stoica, I., Morris, R., Karger, D., Kaashoek, M. F., & Balakrishnan, H. (2001). *Chord: A scalable peer-to-peer lookup service for internet applications*. ACM SIGCOMM Computer Communication Review, 31(4), 149-160.
Benzmüller, C., & Heyer, G. (2008). *Peer-to-peer information retrieval: An overview*. Springer.
Gentoo Linux Wiki (2024). *Installing and Configuring Packages in Gentoo*. Retrieved from wiki.gentoo.org.
YaCy Developers (2023). *YaCy Search Engine: Architecture and Performance Optimization*. Retrieved from github.com/yacy/yacy_search_se.

**Хэштеги**
#YaCy #DecentralizedSearch #Gentoo #RuTracker #P2P #DistributedSearch #DHT #FOSS #PrivacyTech #PeerToPeer #OpenSource

**Где найти соратников для обсуждения?**
🔹 **Официальные сообщества YaCy**
Форум YaCy Community
Группа в Matrix: #yacy:matrix.org
IRC-канал: #yacy на irc.libera.chat
🔹 **Сообщества по Gentoo и Open Source**
Форум Gentoo
Reddit: r/Gentoo
Telegram-группа Gentoo Russia
🔹 **Дискуссионные площадки по децентрализованным технологиям**
LOR (Linux.org.ru) – обсуждение Linux и open-source решений.
RuTracker.org – форум альтернативных технологий
Hacker News – обсуждение перспектив P2P и децентрализованных систем.
Эти ресурсы помогут разработчикам, исследователям и энтузиастам YaCy глубже разобраться в технологии и найти единомышленников.

matrix.to/#/!NggrnptZjGBkegXXq

Estoy haciendo un experimento con YaCy, un buscador p2p para indexar internet. Que sitios interesantes para escanear se les ocurren? Sitios que tengan info sin tener que loguearse, como bibilotecas, tutoriales, manuales, enciclopedias, conocimiento, tecnología, cultura, atre, literatura, etc. Comenten que enlaces les parecen importantes asi los voy agregando a la lista de crawl, quiero ver que se puede lograr. Monte un servidor dedicado exclusivamente a esto, a escanear internet, es medio un delirio, pero es tanta la basura que me tiran los disquebuscadores que me parece que me voy a montar el mio propio #yacy #p2p #buscadores #search #engine #internet #undernet