Ewaluacja chatbotów

Metody ewaluacji chatbotów można podzielić na dwie grupy - ewaluację w zakresie lingwistycznym i pozalingwistycznym.

Ewaluacja w zakresie lingwistycznym

Można do tej ewaluacji wykorzystać test Turinga, który określa zdolności maszyny do posługiwania się językiem naturalnym.

W przypadku oceny z zakresu lingwistycznego linguaboty można także potraktować jako swego rodzaju system Question Answering, z tą różnicą, że chatbot zwraca tylko jedną odpowiedź. Do ewaluacji można zastosować metody opracowane w ramach konferencji TREC.

Ewaluacja w zakresie pozalingwistycznym

Kryteria ewaluacji w tym zakresie nie zostały jeszcze w pełni usystematyzowane[1]. Proponowane kryteria to ewaluacja:

  • zrozumiałości i prezentacji informacji
  • znaczenia wizualnych wskazówek
  • prozodii i interakcji
  • wyrazistości i pozy linguabotów

Ewaluacja zrozumiałości i prezentacji informacji

Badania wykazały[2], że zrozumiałość prezentowanej informacji wzrasta, jeśli do naturalnego głosu dodany interfejs graficzny (najczęściej głowę) chatbota.

Przy ocenie prezentacji i zrozumiałości informacji bierze się pod uwagę niektóre parametry kontroli artykulacji twarzy tj.:

  • rotacja żuchwy
  • przesunięcie warg
  • rozszerzanie się ust
  • wysokość końcówki języka

Ewaluacja celności wizualnych wskazówek

Współczesnym chatterbotom autorzy starają się nadać jak najwięcej cech ludzkich. Boty potrafią poruszać ustami, uśmiechać się, być smutnymi itp. Dobry chatterbot powinien np. poruszać ustami, ale ruch warg powinien być zsynchronizowany z mową oraz wyglądać jak najbardziej naturalnie. Bot powinien "zrozumieć" swoją wypowiedź i w odpowiedni sposób przekazać ją użytkownikowi. Jeśli jego wypowiedź ma charakter wesoły jego twarz powinna wyrażać to samo, jeśli wypowiedź jest smutna bądź użytkownik napisze coś smutnego, bot powinien przyjąć odpowiednia mimikę twarzy.

Ewaluacja prozodii i interakcji

W tej części linguabot oceniany jest podobnie jak syntezator mowy. Ocenie podlega naturalność wypowiadanego tekstu oraz intonacja wymowy np. artykułowanie pytania. Interesująca jest także kwestia połączenia wizualnych wskazówek z intonacją wymowy i ważność poszczególnych elementów.

Ewaluacja wyrazistości i pozy

W przeprowadzonym w 2006 roku eksperymencie oceniano przyjazność chatbota. Chatbot zadawał pytanie "Vad heter du?" (Jak masz na imię) (głos w dwóch konfiguracjach: wczesny niski ton i późny wysoki ton), i przybierał trzy różne postawy (zły, wesoły i neutralny). Badania wykazały, że przyjazność była najniższa w przypadku gdy linguabot wypowiadał pytanie będąc zły (przy wczesnym niskim tonie), natomiast gdy był wesoły i neutralny wyniki były zbliżone.

Zawody

Istnieją specjalne zawody, mające na celu wyłonienie chatbota, który najbardziej przypomina człowieka[3]:

  • Nagroda Loebnera[4], coroczny konkurs wzorowany na teście Turinga,
  • The Chatterbox Challenge[5],

Zobacz też

  • Chatbot
  • Question Answering

Przypisy

  1. patrz Granström i House w bibliografii
  2. patrz Granström i House w bibliografii str. 71-77
  3. Anna Meller. Wystaw bota na zawody. „Software 2.0 Extra: Sztuczna Inteligencja”. s. 22-25. 
  4. Home Page of the Loebner Prize [online], www.loebner.net [dostęp 2017-11-23] [zarchiwizowane z adresu 2010-12-30] .
  5. chatterboxchallenge.com Is For Sale [online], www.chatterboxchallenge.com [dostęp 2017-11-23] .

Bibliografia

  • Björn Granström and David House Modelling and evaluating verbal and non-verbal communication in talking animated interface agents. W: Laila Dybkjaer, Holmer Hemsen, Wolfgang Minker: Evaluation of text and speech systems. Berlin: Springer Science+Business Media, 2007, s. 65-93. ISBN 978-1402058158. (ang.).