Globalny lider w branży produktów zdrowotnych dla konsumentów
Wyzwanie
Klient miał trudności w uzyskaniu pełnego i ujednoliconego zestawu danych obrazujących sytuację biznesową na potrzeby podejmowania decyzji. Kluczowe wyzwania obejmowały:
- Wiele niezintegrowanych źródeł danych, w tym przestarzałe systemy o zamkniętym kodzie źródłowym,
- Różne typy danych i modalności, w tym danie nieustukturyzowane,
- Niska jakość danych referencyjnych.
Ponadto, część danych tekstowych pochodziła z przestarzałych systemów, co utrudniało użycie nowoczesnych rozwiązań opartych o sztuczną inteligencję w celu łatwej ekstrakcji wiedzy z tych źródeł.
Klient potrzebował skalowanych i efektywnych kosztowo łańcuchów przetwarzania (biorąc pod uwagę ogromne wolumeny danych), które jednocześnie wsparłyby nadzór nad danymi w tym procesy zarządzanie danymi referencyjnymi.
-
Integracja danych pochodzących z rozsianych po firmie źródeł danych do centralnego jeziora danych (data lake) opartego na technologii Databricks tak aby zapewnić autorytatywne źródło prawdy (single source of truth) obejmujące dane z różnych domen oraz umożliwić do nich dostęp całej organizacji.
-
Uproszczenie i standaryzacja architektury danych poprzez wykorzystanie referencyjnej architektury jezioro-hurtowni danych (data lakehouse) oraz ustalenie wspólnego wzorca integracji.
-
Budowę skalowanych i optymalnych kosztowo łańcuchów przetwarzania danych zaczytujących dane z różnych źródeł korzystając z różnorodnych interfejsów, w tym konektorów baz danych, API, integracji opartych o wymianę plików, itd.
-
Katalogowanie danych oraz wygenerowanie encji danych referencyjnych wykorzystując algorytmy sztucznej inteligencji (AI) aby umożliwić sprawniejszy nadzór i zarządzanie danymi referencyjnymi.
-
Wykorzystał techniki RAG aby umożliwić użytkownikom biznesowym “rozmowę z dokumentami” w języku naturalnym a tym samym łatwą ekstrakcję wiedzy ukrytej w ogromnych firmowych bazach dokumentów tekstowych (artykuły naukowe, raporty z badań, etc.).
W wyniku projektu Klient zyskał m.in.:
- Skalowaną platformę danych opartą o najlepsze praktyki w zakresie architektury hurtownio-jezior danych (data Lakehouse). Architektura danych została tym samym uproszczona i wystandaryzowana co ułatwiło zarządzanie oraz dalszy rozwój oprogramowania w oparciu o nią.
- Autoratywne źródło danych (single source of truth) oraz jednolity, całościowy obraz stanu biznesu umożliwiający szerszy zakres przypadków użycia oraz analiz na potrzeby wsparcia podejmowania decyzji.
- Optymalizację kosztów przetwarzania – dostępność kosztowa nawet skomplikowanych przetwarzań umożliwiła korzystanie z danych w sposób jaki wcześniej był niedostępny ze względu na koszty co odblokowało nowe możliwości dla wsparcia biznesu.
- Łatwy dostęp wiedzy ukrytej w ogromnych bazach dokumentów tekstowych – za pośrednictwem technologii GenAI użytkownicy biznesowi mogą “rozmawiać z bazą dokumentów” używając języka naturalnego, co znacząco poprawiło produktywność zespołu BiR oraz otworzyło przed nimi nowe możliwości.

- Microsoft Azure
- Databricks
- Azure OpenAI
- Azure Event Hubs
- Container Apps
- GitHub Actions
- Power BI
-
Databricks
-
Inżynier AI/ML
-
Inżynier Danych
-
Data Architecture Assessment
-
Inżynieria danych i integracje AI/ML