Podsumowanie
Projekt ten jest aplikacją napisana w języku Python 3 (wymagająca co najmniej wersji 3.10), zaprojektowaną do wyodrębniania i przetwarzania metadanych (takich jak tytuł, autorzy, streszczenie, sponsorzy itp.) z publikacji naukowych pochodzących z platform takich jak Scopus (przy użyciu dwóch różnych metod) i Google Scholar (poprzez scraping HTML).
Kluczowe cechy
- Gromadzenie danych z wielu źródeł:
Program gromadzi metadane publikacji z wielu źródeł, wykorzystując zarówno oficjalne, jak i nieoficjalne interfejsy API HTTP oraz scraping HTML. - Wykorzystane technologie: Główne biblioteki obejmują HTTPX dla żądań HTTP(S) i BeautifulSoup4 do scrapingu HTML. Projekt obejmuje również backend stworzony za pomocą Flaska do obsługi danych i logiki biznesowej oraz frontend zbudowany przy użyciu Vue.js oraz Chart.js do interaktywnej, wizualnej prezentacji zebranych i przetworzonych danych.
- Ujednolicenie formatów:
Narzędzie obsługuje różne formaty danych zwracane przez różne źródła (np. JSON z interfejsów API, CSV z nieoficjalnych eksportów i częściowo przetworzone słowniki Python z HTML scrapingu). Ujednolica te formaty, przetwarzając i przechowując wszystkie metadane w ustrukturyzowanej bazie danych SQLite. - Wydajny eksport: Po skonsolidowaniu danych w bazie danych można je łatwo eksportować lub przeszukiwać w celu dalszej analizy.
Rozbudowa projektu
- Modułowa konstrukcja modułu pobierającego dane: Aplikacja została zaprojektowana z myślą o modułowości. Programiści mogą dodawać nowe źródła danych, tworząc dodatkowe moduły pobierające dane, które są zgodne z oczekiwanym formatem wejścia/wyjścia. Moduły te mogą korzystać z interfejsów API, scrapingu HTML lub innych protokołów i muszą jedynie dostarczać metadane w formie, która może być przetworzona i zunifikowana z istniejącym schematem bazy danych.
- Dostosowanie schematu bazy danych:
Jeśli wymagane są nowe typy metadanych lub źródła publikacji, programiści mogą rozszerzyć schemat SQLite zapewniając płynną integrację nowych danych. - Konfiguracja wiersza poleceń i środowiska: Konfiguracja za pomocą argumentów wiersza poleceń i zmiennych środowiskowych ułatwia wprowadzanie nowych opcji lub punktów integracji dla przyszłych źródeł, czy też formatów eksportu.
Wnioski
Takie podejście zapewnia kompleksowe pokrycie metadanych publikacji, nawet ze źródeł o ograniczonej lub braku obsługi API, oraz zapewnia solidny, ujednolicony backend do dalszych badań lub analiz.
Programiści mogą w łatwy sposób rozszerzać lub dostosowywać projekt, aby obsługiwał nowe naukowe bazy danych, formaty wyjściowe lub procesy przetwarzania.