Rozpoznawanie dźwięków psa - jak to działa (bez technicznego żargonu)

Aktualizacja: maj 2026

Dla kogo ten artykuł: używasz aplikacji do obserwacji psa albo rozważasz jej użycie i chcesz zrozumieć, jak działa rozpoznawanie dźwięków. Bez żargonu, bez upraszczania do nieczytelnego marketingu. Materiał edukacyjny oparty na publicznie dostępnej literaturze naukowej (Pongrácz i in., 2017; Marx i in., 2021).

Wyobraź sobie tę sytuację: wychodzisz do pracy, zostawiasz drugie urządzenie z aplikacją obserwacyjną przy Bursztynie. Trzy godziny później dostajesz powiadomienie: „Bursztyn zaczął szczekać”. Wracasz wieczorem i widzisz w raporcie: 6 minut szczekania, 2 minuty skomlenia, reszta dnia spokojna. Pytanie, które pojawia się prędzej czy później u każdego opiekuna: skąd aplikacja to wszystko wie?

I drugie, równie ważne: jak bardzo można tej technologii ufać? Czy aplikacja nie zlicza przypadkiem hałasu zza ściany? Co się dzieje z dźwiękiem? Czy aplikacja nie podsłuchuje rozmów?

Ten artykuł odpowiada na te pytania bez technicznego żargonu i bez ukrywania trudnych aspektów technologii. Pokazuje, co aplikacja faktycznie analizuje, jak uczy się rozpoznawać dźwięki, dlaczego błędy się zdarzają i co odróżnia podejścia oparte na analizie lokalnej od tych korzystających z serwerów w chmurze.

Co odróżnia szczekanie od skomlenia – akustyka psich wokalizacji

Zacznijmy od tego, co aplikacja w ogóle próbuje rozpoznać. Psy używają kilku różnych typów wokalizacji, a każdy z nich ma odmienną charakterystykę dźwiękową. To nie są synonimy – akustycznie różnią się od siebie wyraźnie.

Szczekanie to dźwięk impulsywny: krótki (typowo 0,2–0,5 sekundy), o szybkim narastaniu i opadaniu energii, z wyraźnym atakiem dźwiękowym. Charakterystyczny jest powtarzalny rytm – seria krótkich szczeknięć z przerwami. Akustycznie szczekanie ma szerokie pasmo częstotliwości, od niskich po wysokie.

Skomlenie ma odmienną charakterystykę akustyczną. Jest długie (od kilku sekund w górę), ciągłe (tonalne), o stosunkowo wąskim paśmie częstotliwości, często z modulacją wysokości tonu. Brzmi „śpiewająco”, falowo. Pongrácz i in. (2017) pokazali, że skomlenie u psów z trudnościami separacyjnymi pojawia się szybciej i częściej niż u psów bez tych trudności – sam typ dźwięku może więc być ważną wskazówką przy obserwacji trudności separacyjnych. Liczy się nie tylko głośność, ale też rodzaj wokalizacji.

Wycie to z kolei dźwięk najdłuższy i najbardziej tonalny – pojedyncza fala może trwać 10 sekund i więcej, z bardzo stabilnym tonem. To wokalizacja społeczna, kontaktowa, z ewolucyjnymi korzeniami w komunikacji wilków.

Warczenie jest niskie i gardłowe, najczęściej krótkie, z dominującym pasmem niskich częstotliwości. Najczęściej pełni funkcję ostrzegawczą.

Marx i in. (2021) przebadali 167 psów, a w analizie akustycznej uwzględnili 4086 skomleń od 121 osobników. Pokazali, że nawet w obrębie jednego typu wokalizacji (skomlenia) drobne różnice w „szorstkości” głosu i zaburzeniach periodyczności tonu mogą być związane z pobudzeniem lub stresem. Innymi słowy: psie dźwięki niosą sporo informacji, które dla ludzkiego ucha są często niezauważalne – ale dają się opisać akustycznie.

Te różnice akustyczne są punktem wyjścia dla każdej technologii rozpoznawania dźwięków psa. Im wyraźniejsza akustyczna sygnatura wokalizacji, tym łatwiej maszynowo ją rozpoznać.

Jak komputer „słyszy” dźwięk

Następne pytanie: jak dźwięk z mikrofonu trafia w ogóle do analizy? Tu zaczyna się rola sztucznej inteligencji – ale zanim do niej dojdziemy, dźwięk musi być zamieniony na coś, z czym komputer potrafi pracować.

Surowy dźwięk to fala akustyczna – ciągły strumień zmieniających się wartości w czasie. Dla komputera to po prostu długi szereg liczb (zazwyczaj kilkadziesiąt tysięcy liczb na sekundę). Bezpośrednio z taką falą trudno jednak rozpoznać szczekanie czy skomlenie, bo wzorce akustyczne tych dźwięków leżą nie w samej fali, tylko w jej zawartości częstotliwościowej – w tym, jakie tony brzmią w jakim natężeniu i jak to się zmienia w czasie.

Dlatego aplikacje rozpoznające dźwięki najpierw przekształcają sygnał na spektrogram – obraz pokazujący, jak rozkłada się energia dźwięku w różnych pasmach częstotliwości na osi czasu. Wyobraź sobie mapę cieplną: oś pozioma to czas, oś pionowa to częstotliwość (od niskich tonów na dole do wysokich na górze), a kolor wskazuje, jak głośny jest dany ton w danej chwili.

Spektrogram szczekania wygląda inaczej niż spektrogram skomlenia. Inaczej niż spektrogram pracy odkurzacza. Inaczej niż spektrogram głosu człowieka. To właśnie takie wzorce analizuje model sztucznej inteligencji.

Aplikacja dzieli ciągły strumień audio na krótsze odcinki (zwykle kilkusekundowe okna), wylicza dla każdego spektrogram, a potem analizuje, do której kategorii dźwięków najbardziej pasuje. Cały proces odbywa się na urządzeniu, w czasie rzeczywistym – każdy fragment audio jest analizowany w ułamku sekundy.

Jak sztuczna inteligencja uczy się rozpoznawać

Sztuczna inteligencja w aplikacjach do obserwacji psa nie jest magicznym pudełkiem – to program, który nauczył się rozpoznawać dźwięki na podstawie wielu tysięcy oznaczonych przykładów. Proces uczenia (treningu modelu) wygląda mniej więcej tak:

Zbiór nagrań treningowych. Badacze gromadzą duże zbiory nagrań: psich szczekań, wycia, skomlenia, ale też dźwięków codziennych – telewizji, rozmów, ulicy, AGD, kotów, dzieci. Każde nagranie jest opisane etykietą: „to jest szczekanie”, „to jest skomlenie”, „to nie jest pies”.
Wyodrębnianie cech. Każde nagranie zamieniane jest na spektrogram. Model uczy się, które wzorce wizualne w spektrogramie odpowiadają której etykiecie.
Korygowanie błędów. Na początku model myli się często. Każdy błąd („to było szczekanie, a model powiedział, że warczenie”) jest sygnałem do drobnej korekty wewnętrznych parametrów. Po tysiącach takich korekt model staje się coraz lepszy.
Walidacja na nowych nagraniach. Po treningu model jest sprawdzany na nagraniach, których nigdy wcześniej nie widział. Wynik mówi, jak dobrze rozpoznaje rzeczywistość, a nie tylko zbiór treningowy.

Po skończonym treningu model otrzymuje fragment dźwięku z Twojego urządzenia, wylicza spektrogram, porównuje go z tym, czego się nauczył, i zwraca decyzję. Co ważne – nie zwraca twardego „tak/nie”, tylko poziom pewności: „prawdopodobieństwo, że to szczekanie, wynosi 87%”.

Ten poziom pewności jest kluczowy. Aplikacje pokazują użytkownikowi tylko wykrycia powyżej pewnego progu pewności – dzięki temu ograniczają liczbę fałszywych alarmów na niejednoznacznych dźwiękach.

Trudne dźwięki – dlaczego błędy się zdarzają

Każda aplikacja rozpoznająca dźwięki psa popełnia błędy. To nie jest wada konkretnego rozwiązania – to nieodłączna cecha technologii rozpoznawania dźwięku. Warto wiedzieć, dlaczego, żeby właściwie interpretować raporty z aplikacji.

Główne źródła fałszywych alarmów – sytuacji, w których aplikacja błędnie rozpoznaje dźwięk jako psi:

Dźwięki sąsiada za ścianą. Mikrofon nie wie, że dźwięk dochodzi z innego mieszkania. Jeśli pies sąsiada szczeka głośno, aplikacja może go zinterpretować jako Twój. Modele rozpoznają „brzmienie szczekania”, nie „brzmienie Twojego Bursztyna”.
Kocie wokalizacje. Niektóre kocie dźwięki – szczególnie głośne, przeciągłe zawodzenie – są akustycznie zaskakująco podobne do skomlenia czy wycia psa. To jeden z przykładów dźwięków trudnych do automatycznego rozpoznania.
Chrapanie człowieka. Niski, rytmiczny, modulowany dźwięk chrapania może być błędnie sklasyfikowany jako skomlenie – oba dźwięki mogą mieć podobne pasmo częstotliwości i rytm.
Sprzęty domowe. Niektóre AGD – odkurzacze, suszarki, pralki w fazie wirowania – produkują dźwięki o cechach widmowych zbliżonych do wokalizacji.
Telewizja i radio. Jeśli w tle leci program, w którym akurat szczeka jakiś pies, aplikacja zwykle zarejestruje to jako szczekanie. Z jej perspektywy to po prostu szczekanie, niezależnie od tego, czy źródłem jest pies, czy głośnik.

Dlatego dobrze zaprojektowane modele są trenowane nie tylko na „pozytywnych” przykładach (szczekanie psa), ale też na dużych zbiorach „negatywnych” – chrapania, pracy AGD, hałasu ulicy, kocich dźwięków. Im więcej trudnych przypadków model widział podczas treningu, tym lepiej radzi sobie z nimi w rzeczywistości.

Praktyczna konsekwencja dla opiekuna: jeśli aplikacja zgłasza szczekanie, a w nagraniu wideo nie widzisz żadnej reakcji psa, najczęściej źródło dźwięku było poza polem widzenia kamery – z klatki schodowej, ulicy, mieszkania obok. Podgląd wideo jest dobrym sposobem na szybką weryfikację.

Lokalnie czy w chmurze – dwa modele przetwarzania

Aplikacje rozpoznające dźwięki psa dzielą się na dwie zasadnicze rodziny – w zależności od tego, gdzie odbywa się analiza.

Model 1: analiza w chmurze

Aplikacja wysyła nagrany dźwięk na zewnętrzne serwery firmy. Serwery wykonują analizę, wynik wraca do aplikacji. Plusy tego podejścia to większa moc obliczeniowa serwerów – mogą uruchamiać większe, dokładniejsze modele.

Minusy są jednak istotne dla prywatności:

Surowy dźwięk z Twojego mieszkania opuszcza Twoje urządzenie i ląduje na serwerach firmy. Co się z nim dalej dzieje – jak długo jest przechowywany, kto ma do niego dostęp, czy jest wykorzystywany do trenowania modeli – zależy od polityki konkretnej firmy.
Aplikacja wymaga stałego połączenia z internetem. Bez sieci nie działa.

Model 2: analiza lokalna na urządzeniu

Model rozpoznawania jest wbudowany bezpośrednio w aplikację. Cała analiza odbywa się na urządzeniu – telefonie, tablecie, laptopie – które zostaje z psem. Nagrania używane do klasyfikacji dźwięku nie są wysyłane na serwer w celu analizy.

Plusy:

Nagrania używane do rozpoznawania wokalizacji nie są przesyłane na serwery firmy – klasyfikacja odbywa się lokalnie, na urządzeniu.
Rozpoznawanie dźwięków działa nawet bez internetu. Sieć potrzebna jest tylko do przesłania powiadomienia z urządzenia obserwującego do Twojego.

Kompromisy:

Model musi być mniejszy, żeby mieścił się w pamięci urządzenia mobilnego. W wielu dobrze zdefiniowanych zadaniach mniejsze modele lokalne mogą osiągać wystarczającą dokładność, ale konkretne wyniki zależą od modelu, danych treningowych i warunków nagrania.
Większe zużycie baterii – analiza wymaga ciągłych obliczeń na urządzeniu. W praktyce sesja kilkugodzinna może wyczerpać dużą część baterii, dlatego dobrze jest podłączyć urządzenie do ładowarki.

Z punktu widzenia prywatności analiza lokalna jest istotnie inna od chmurowej. To nie jest tylko marketingowe hasło – to fundamentalna różnica w tym, gdzie znajdują się dane z Twojego prywatnego mieszkania.

Jak Merdilo podchodzi do rozpoznawania dźwięków

Merdilo używa modelu analizy lokalnej na urządzeniu. W praktyce oznacza to:

Cztery typy psich wokalizacji rozpoznawane bezpośrednio w aplikacji: szczekanie, skomlenie, wycie i warczenie. Każde wykrycie zawiera poziom pewności.
Dźwięk z mikrofonu drugiego urządzenia jest analizowany lokalnie – nagrania używane do rozpoznawania wokalizacji nie są wysyłane na serwery Merdilo.
Komunikacja między dwoma urządzeniami – Twoim i tym zostawionym z psem – odbywa się bezpośrednio między urządzeniami (peer-to-peer, czyli bez przesyłania nagrań do analizy na serwer). Wideo na żywo, jeśli z niego korzystasz, jest przesyłane tym samym kanałem.
Powiadomienia, które dostajesz, zawierają informację „pies szczeka”, „pies wyje”, „pies skomli”, ale nie zawierają nagrania.

Model rozpoznawania dźwięków jest trenowany na tysiącach oznaczonych nagrań – zarówno wokalizacji psich (od różnych ras, w różnych sytuacjach), jak i dużych zbiorach dźwięków, które łatwo pomylić z psimi wokalizacjami (chrapanie, AGD, koty, hałas tła). Każda aktualizacja aplikacji może zawierać ulepszoną wersję modelu, ale samo działanie pozostaje lokalne – Twoje nagrania nie są wysyłane do trenowania.

Jeśli interesuje Cię szerszy obraz prywatności w aplikacjach obserwacyjnych, w artykule o aplikacjach do obserwacji psa opisujemy kategorie rozwiązań dostępnych na rynku.

Co aplikacja interpretuje poza samym typem dźwięku

Rozpoznanie, że pies szczeka albo skomli, to dopiero pierwszy krok. Bardziej wartościowe dla opiekuna są szersze interpretacje – probabilistyczne, oparte na obserwowanych wzorcach. W praktyce dobrze zaprojektowana aplikacja może próbować ocenić dwie rzeczy:

Stan emocjonalny w wokalizacji

Sam typ dźwięku nie pokazuje wszystkiego. Pies może szczekać z frustracji albo z czujności na bodziec zewnętrzny. Skomlenie bywa wyrazem lęku, ale też samotności. Te różnice są zakorzenione w akustyce – rytmie, tempie, regularności wokalizacji – i można je próbować odczytać z obserwowanych wzorców.

Przykładowe stany, które aplikacja może próbować odróżniać na podstawie wokalizacji:

Frustracja – regularne, rytmiczne wokalizacje, bez wyraźnej eskalacji. Pies protestuje, ale nie panikuje.
Lęk – chaotyczne, nieregularne dźwięki, szybsze tempo, częste przejścia między typami.
Samotność – długie, tonalne wycie. To wokalizacja kontaktowa, próba przywołania opiekuna lub grupy społecznej.
Czujność – reaktywne szczekanie na bodziec zewnętrzny, naturalne zachowanie strażnicze.
Niepokój – umiarkowane tempo z pewną nieregularnością, sygnał rosnącego dyskomfortu.

To wciąż interpretacja statystyczna, oparta na akustyce – nie odczyt świadomości psa. Pies czujny na sąsiada za ścianą i pies w lekkim niepokoju mogą produkować akustycznie podobne wokalizacje, a różnica między nimi czasem wymaga kontekstu (pora dnia, długość trwania, co się działo wcześniej).

Wskaźnik ryzyka lęku separacyjnego

Drugi poziom interpretacji to ocena, czy wzorzec wokalizacji w trakcie nieobecności opiekuna mieści się w zakresie typowym, czy też wykazuje cechy charakterystyczne dla trudności separacyjnych. Tu literatura kliniczna podaje kilka wskaźników (Pongrácz i in., 2017; McCrave, 1991):

Szybkość pierwszej wokalizacji – pojawienie się dźwięków w ciągu pierwszych 5 minut po wyjściu opiekuna częściej towarzyszy psom z trudnościami separacyjnymi.
Dominacja skomlenia – jeśli skomlenie stanowi znaczącą część wokalizacji (orientacyjnie co najmniej 30%), może być silniejszym sygnałem obserwacyjnym niż samo szczekanie.
Ciągłość wzorca – wokalizacje rozkładające się równomiernie przez sesję wskazują na inną sytuację niż reaktywne, krótkie epizody związane z bodźcami zewnętrznymi.
Przedłużający się niepokój – dłuższa, utrzymująca się wokalizacja (np. ponad 30 minut) to wzorzec, który warto wziąć pod uwagę.
Eskalacja intensywności – wzrost częstości i głośności w trakcie sesji może sygnalizować narastanie niepokoju.

Powyższe progi (30%, 30 minut, 5 minut) traktuj jako orientacyjne wskaźniki obserwacyjne, a nie twarde kryteria diagnostyczne. To raczej sygnały do dalszej obserwacji niż samodzielne podstawy diagnozy.

Połączenie tych kryteriów daje orientacyjny poziom ryzyka – niski, umiarkowany, wysoki albo poważny. To nadal obserwacja, nie diagnoza. Formalna diagnoza lęku separacyjnego wymaga lekarza weterynarii behawiorysty, który uwzględni szerszy kontekst: zachowanie poza wokalizacjami, historię, stan zdrowia psa, sytuację rodzinną. Aplikacja może dostarczyć materiał obserwacyjny, ale nie zastępuje konsultacji.

Takie podejście – pokazywać sygnały zgodne z literaturą, nazywać je „ryzykiem”, nie „diagnozą” – to bezpieczniejszy i bardziej odpowiedzialny sposób komunikowania wyniku. Trochę jak termometr: pokazuje gorączkę, ale nie mówi, czy to grypa, czy zapalenie ucha.

Czego sztuczna inteligencja w aplikacji nie robi

Równie ważne jest to, czego nie należy oczekiwać.

Nie rozpoznaje konkretnego psa. Aplikacja wie, że „to jest szczekanie”, nie wie, czy to szczekanie Twojego Bursztyna, czy psa sąsiada. Rozpoznawanie indywidualnych osobników po głosie to znacznie trudniejsze zadanie, którego typowe aplikacje obserwacyjne nie wykonują.

Nie stawia diagnozy klinicznej. Nawet jeśli aplikacja pokazuje wskaźnik ryzyka lęku separacyjnego, nie zastępuje to wizyty u specjalisty. Wskaźnik mówi „te wzorce są zgodne z trudnościami separacyjnymi opisanymi w literaturze”, a nie „Twój pies ma zaburzenie X”. Różnica jest znacząca – ta sama wokalizacja może mieć różne podłoże (medyczne, środowiskowe, behawioralne), a rozróżnienie wymaga eksperta.

Nie czyta myśli psa. Interpretacja emocji oparta na akustyce to przybliżenie, nie pewność. Pies w niepokoju i pies skoncentrowany na dźwięku z klatki schodowej mogą produkować akustycznie zbliżone wokalizacje. Dlatego raporty z aplikacji warto czytać razem z innymi obserwacjami: kontekstu sytuacyjnego, języka ciała widocznego na podglądzie, codziennego rytmu psa.

Nie analizuje ludzkich rozmów. Model rozpoznawania nie jest projektowany do transkrypcji ani rozumienia treści ludzkich rozmów – jego zadaniem jest klasyfikacja dźwięków psa i wybranych dźwięków tła. W modelu lokalnym nagrania nie są też przesyłane na serwer w celu rozpoznawania, co istotnie ogranicza ryzyka prywatnościowe.

Co dają konkretne dane z aplikacji obserwacyjnej

Rozpoznawanie typów dźwięku to nie ciekawostka technologiczna – to dane, które pomagają opiekunowi lepiej rozumieć, co dzieje się z psem podczas nieobecności. Czas do pierwszej wokalizacji, łączny czas szczekania, pojawienie się skomlenia tam, gdzie wcześniej go nie było, zmiana Wskaźnika spokoju (to wynik podsumowujący, jak spokojnie przebiegła dana sesja obserwacji psa) z tygodnia na tydzień – to konkrety, na których można oprzeć decyzje dotyczące rytmu dnia, treningu samotności albo momentu konsultacji ze specjalistą.

Zobacz, jak działa rozpoznawanie dźwięków w praktyce

Możesz użyć drugiego urządzenia – telefonu, tabletu albo laptopa – jako kamery z rozpoznawaniem szczekania, wycia, skomlenia i warczenia. Klasyfikacja dźwięku odbywa się lokalnie na Twoim urządzeniu – nagrania nie są wysyłane na serwery Merdilo. Raport po sesji pokazuje typy wokalizacji, czas reakcji i Wskaźnik spokoju.

Google Play– Android App Store– iPhone i iPad Mac App Store– Mac Microsoft Store– Windows

Często zadawane pytania

Czy aplikacja do obserwacji psa podsłuchuje moje rozmowy?

Aplikacje rozpoznające dźwięki psa mają dostęp do mikrofonu, ale to, co dzieje się z dźwiękiem, zależy od modelu działania. W aplikacjach z analizą lokalną na urządzeniu (jak Merdilo) dźwięk jest analizowany w samej aplikacji i nie jest przesyłany na zewnętrzne serwery. W aplikacjach z analizą chmurową dźwięk trafia na zewnętrzne serwery – tu prywatność zależy od polityki firmy. Model Merdilo nie jest projektowany do rozumienia ludzkich rozmów. W aplikacjach chmurowych zakres przetwarzania zależy od konkretnej firmy i jej polityki prywatności.

Czy aplikacja rozpoznająca szczekanie działa bez internetu?

To zależy od modelu. Aplikacja z analizą lokalną na urządzeniu (jak Merdilo) rozpoznaje dźwięki bez internetu – cała analiza odbywa się na urządzeniu. Internet potrzebny jest tylko do komunikacji między dwoma urządzeniami (powiadomienia, podgląd na żywo). Aplikacje z analizą w chmurze nie zadziałają bez połączenia – cała analiza wymaga wysłania dźwięku na serwer.

Co jeśli aplikacja błędnie zidentyfikuje dźwięk (fałszywy alarm)?

To się zdarza w każdej aplikacji rozpoznającej dźwięki – to wpisana w technologię niepewność. Najczęstsze pomyłki: pies sąsiada za ścianą zinterpretowany jako Twój pies, hałas ulicy odebrany jako szczekanie, kocia wokalizacja zaklasyfikowana jako skomlenie. Dobrej jakości aplikacje minimalizują takie pomyłki przez trening na różnorodnych dźwiękach tła, ale nigdy nie osiągną stuprocentowej dokładności. Praktycznie: jeśli aplikacja zgłosi „szczekanie”, a podgląd wideo nic nie pokazuje – prawdopodobnie był to dźwięk z zewnątrz.

Czy aplikacja rozpoznaje konkretnie mojego psa?

Nie – rozpoznawanie indywidualnych osobników po głosie to znacznie trudniejsze zadanie, którego typowe aplikacje obserwacyjne nie wykonują. Model uczy się ogólnego brzmienia szczekania, skomlenia czy wycia psów, niezależnie od rasy czy wieku. Dlatego głośne szczekanie psa sąsiada może czasem zostać odebrane jako Twoje. Aplikacja mówi: „to jest szczekanie”, nie „to jest szczekanie Bursztyna”.

Czy AI w aplikacji uczy się na moim psie?

W aplikacjach z analizą lokalną na urządzeniu (jak Merdilo) – nie. Model jest zainstalowany w aplikacji i jest stały. Aktualizacje aplikacji wprowadzają nowe wersje modelu, ulepszane przez programistów na podstawie szerszych zbiorów danych treningowych, ale Twoje nagrania nie są używane do tej nauki. W aplikacjach z analizą chmurową niektóre firmy używają zebranych nagrań do dalszego treningu modelu – warto sprawdzić w polityce prywatności, czy Twoje dane są w ten sposób wykorzystywane.

Podsumowanie

Psie wokalizacje różnią się akustycznie: szczekanie jest impulsywne, skomlenie tonalne i modulowane, wycie długie i stabilne, warczenie niskie i gardłowe. Te różnice są punktem wyjścia dla rozpoznawania.
Komputer „słyszy” dźwięk przez spektrogram – mapę cieplną częstotliwości w czasie. To wzorce na spektrogramie analizuje sztuczna inteligencja.
Model AI uczy się na tysiącach oznaczonych nagrań – zarówno psich wokalizacji, jak i trudnych dźwięków tła. Każde wykrycie ma poziom pewności.
Błędy są wpisane w technologię. Sąsiad, kot, AGD, telewizja – każde może dać fałszywy alarm. Podgląd wideo pomaga to szybko zweryfikować.
Analiza lokalna na urządzeniu vs analiza w chmurze to dwa różne modele prywatności. W modelu lokalnym rozpoznawanie odbywa się na urządzeniu, a nagrania używane do klasyfikacji nie są wysyłane na serwery Merdilo.
Aplikacja może interpretować więcej niż sam typ dźwięku – stan emocjonalny w wokalizacji oraz wskaźnik ryzyka lęku separacyjnego (oparty na kryteriach z literatury). To jednak obserwacja, nie diagnoza – formalna diagnoza wymaga specjalisty.
Czego AI nie robi: nie rozpoznaje konkretnego psa, nie stawia diagnozy klinicznej, nie czyta myśli psa, nie analizuje rozmów ludzkich.

Źródła

Pongrácz, P., Lenkei, R., Marx, A., Faragó, T. (2017). „Should I whine or should I bark? Qualitative and quantitative differences between the vocalizations of dogs with and without separation-related symptoms.” Applied Animal Behaviour Science, 196, 61–68. sciencedirect.com. Praca pokazująca, że typ wokalizacji (skomlenie vs szczekanie) może mieć znaczenie obserwacyjne – psy z objawami separacyjnymi wcześniej i częściej skomlą.
Marx, A., Lenkei, R., Pérez Fraga, P., Bakos, V., Kubinyi, E., Faragó, T. (2021). „Occurrences of non-linear phenomena and vocal harshness in dog whines as indicators of stress and ageing.” Scientific Reports, 11, 4468. nature.com. W badaniu uwzględniono 167 psów, a w analizie akustycznej 4086 skomleń od 121 osobników. Drobne zaburzenia tonu w skomleniu są skorelowane z pobudzeniem i markerami stresu.
McCrave, E. A. (1991). „Diagnostic criteria for separation anxiety in the dog.” Veterinary Clinics of North America: Small Animal Practice, 21(2), 247–255. pubmed.ncbi.nlm.nih.gov. Klasyczna praca wprowadzająca kryteria diagnostyczne lęku separacyjnego u psów. Punkt odniesienia przy ocenie wskaźników takich jak szybkość pierwszej wokalizacji czy ciągłość wzorca.
Faragó, T., Pongrácz, P., Range, F., Virányi, Z., Miklósi, Á. (2010). „«The bone is mine»: affective and referential aspects of dog growls.” Animal Behaviour, 79(4), 917–925. sciencedirect.com. Praca pokazująca, że warczenie psa niesie informację o stanie emocjonalnym i kontekście (zabawa, obrona kości, reakcja na obcego) – nie jest jednorodnym sygnałem.
Yin, S., McCowan, B. (2004). „Barking in domestic dogs: context specificity and individual identification.” Animal Behaviour, 68(2), 343–355. sciencedirect.com. Klasyczna praca o akustycznych różnicach między psimi wokalizacjami w różnych kontekstach.

Ten artykuł ma charakter edukacyjny. Opisuje ogólne mechanizmy działania rozpoznawania dźwięków w aplikacjach obserwacyjnych. Konkretne rozwiązania różnią się między dostawcami – jeśli rozważasz konkretną aplikację, sprawdź jej politykę prywatności i opis działania pod kątem opisanych w tym artykule kategorii.

Rozpoznawanie dźwięków psa – jak to działa (bez technicznego żargonu)