sigmoid.social is one of the many independent Mastodon servers you can use to participate in the fediverse.
A social space for people researching, working with, or just interested in AI!

Server stats:

597
active users

#erschliessung

0 posts0 participants0 posts today
nbPierre Beauguitte und <span class="h-card"><a class="u-url mention" href="https://sigmoid.social/@osma" rel="nofollow noopener" target="_blank">@<span>osma</span></a></span> haben gerade auf der <a class="hashtag" href="https://social.biblioco.de/tag/swib24" rel="nofollow noopener" target="_blank">#swib24</a> demonstriert, dass automatische Formalerschließung von grauer Literatur mit einem ressourcenschonenden <a class="hashtag" href="https://social.biblioco.de/tag/slm" rel="nofollow noopener" target="_blank">#SLM</a> (Small Language Model) auf lokalen Geräten (Qwen2 0.5B, nur auf CPU) bis zu 85% akkurate Ergebnisse liefern und dabei auch Katalogisierungskonventionen berücksichtigen kann. Mit einem <a class="hashtag" href="https://social.biblioco.de/tag/llm" rel="nofollow noopener" target="_blank">#LLM</a> (Mistral Nemo 12B, mit GPU) konnten sie bis zu 92% erreichen. Dabei wichtiges Take-Away: Bibliotheken müssen ihre Trainingsdaten zusammenführen, damit guten Resulate erzielt werden können. Die beiden Nationalbibliotheken Norwegen und Finnland haben das in diesem Fall vorbildhaft gezeigt. Das Trainingsdatenset FinGreyLit ist schon unter CC0 veröffentlicht und wurde auf englischen, finnischen und schwedischen Dokumenten trainiert, die mit Dublin Core erschlossen wurden: <a href="https://github.com/NatLibFi/FinGreyLit" rel="nofollow noopener" target="_blank">https://github.com/NatLibFi/FinGreyLit</a><br><a class="hashtag" href="https://social.biblioco.de/tag/kiinbibliotheken" rel="nofollow noopener" target="_blank">#KIinBibliotheken</a> <a class="hashtag" href="https://social.biblioco.de/tag/bibliotheken" rel="nofollow noopener" target="_blank">#Bibliotheken</a> <a class="hashtag" href="https://social.biblioco.de/tag/generativeki" rel="nofollow noopener" target="_blank">#GenerativeKI</a> <a class="hashtag" href="https://social.biblioco.de/tag/llms" rel="nofollow noopener" target="_blank">#LLMs</a> <a class="hashtag" href="https://social.biblioco.de/tag/ki" rel="nofollow noopener" target="_blank">#KI</a> <a class="hashtag" href="https://social.biblioco.de/tag/erschliessung" rel="nofollow noopener" target="_blank">#Erschliessung</a> <a class="hashtag" href="https://social.biblioco.de/tag/katalogisierung" rel="nofollow noopener" target="_blank">#Katalogisierung</a>
nbZoe Tucker und Kristian Allen von der UCLA Library haben auf der Code4Lib 2024 eine <a class="hashtag" href="https://social.biblioco.de/tag/opensource" rel="nofollow noopener" target="_blank">#OpenSource</a> <a class="hashtag" href="https://social.biblioco.de/tag/metadaten" rel="nofollow noopener" target="_blank">#Metadaten</a>-Extraktions-Pipeline zur automatischen <a class="hashtag" href="https://social.biblioco.de/tag/erschließung" rel="nofollow noopener" target="_blank">#Erschließung</a> von Digitalisaten mit komplexen Layouts vorgestellt.<br><a href="https://yewtu.be/watch?v=tujc_9nVg3o&amp;t=10445" rel="nofollow noopener" target="_blank">https://yewtu.be/watch?v=tujc_9nVg3o&amp;t=10445</a><br>In einer zweiten Iteration haben sie sich für die Kombination folgender Komponenten entschieden, um bessere Ergebnisse zu erzielen: PaddleOCR (statt <a class="hashtag" href="https://social.biblioco.de/tag/tesseract" rel="nofollow noopener" target="_blank">#Tesseract</a>) für <a class="hashtag" href="https://social.biblioco.de/tag/ocr" rel="nofollow noopener" target="_blank">#OCR</a>, Amazon Science ReFinED (statt <a class="hashtag" href="https://social.biblioco.de/tag/spacy" rel="nofollow noopener" target="_blank">#spaCy</a>) für <a class="hashtag" href="https://social.biblioco.de/tag/ner" rel="nofollow noopener" target="_blank">#NER</a> und Ollama (statt <a class="hashtag" href="https://social.biblioco.de/tag/chatgpt" rel="nofollow noopener" target="_blank">#ChatGPT</a> und <a class="hashtag" href="https://social.biblioco.de/tag/gemini" rel="nofollow noopener" target="_blank">#Gemini</a>) für die Metadaten-Generierung in Dublin Core oder MODS.<br>Das experimentelle Toolkit steht auf GitHub als Docker-Container mit Jupyter Lab Umgebung bereit und wurde in Python umgesetzt: <a href="https://github.com/UCLALibrary/metadata-extraction-lab" rel="nofollow noopener" target="_blank">https://github.com/UCLALibrary/metadata-extraction-lab</a><br><a class="hashtag" href="https://social.biblioco.de/tag/kiinbibliotheken" rel="nofollow noopener" target="_blank">#KIinBibliotheken</a> <a class="hashtag" href="https://social.biblioco.de/tag/bibliotheken" rel="nofollow noopener" target="_blank">#Bibliotheken</a> <a class="hashtag" href="https://social.biblioco.de/tag/generativeki" rel="nofollow noopener" target="_blank">#GenerativeKI</a> <a class="hashtag" href="https://social.biblioco.de/tag/llms" rel="nofollow noopener" target="_blank">#LLMs</a> <a class="hashtag" href="https://social.biblioco.de/tag/ki" rel="nofollow noopener" target="_blank">#KI</a> <a class="hashtag" href="https://social.biblioco.de/tag/erschliessung" rel="nofollow noopener" target="_blank">#Erschliessung</a> <a class="hashtag" href="https://social.biblioco.de/tag/katalogisierung" rel="nofollow noopener" target="_blank">#Katalogisierung</a> <a class="hashtag" href="https://social.biblioco.de/tag/c4l24" rel="nofollow noopener" target="_blank">#c4l24</a>