Nie ma czegoś takiego, jak czysty tekst. Podrobione emoji
Opisywane w poprzednich częściach kodowanie wielobajtowe pozwoliło, poza rozwiązaniem szeregu problemów z akcentami i ogonkami, wypełnić zbiory powszechnie znanych znaków o bardzo wiele uniwersalnych piktogramów. Dzięki temu, obsługa UTF-8 i obecność odpowiedniej czcionki pozwala zapewnić rozszerzony przekaz bez konieczności odwoływania się do grafiki.
30.03.2020 23:20
W jaki sposób radzono sobie z tym problemem wcześniej? Istniało kilka sposobów. Pierwszym z nich było składanie piktogramów z innych znaków. Tak powstały emotikony, używane do tej pory. Zaawansowane systemy składu tekstu stosowały rozszerzone zestawy znaków, które należało "wołać" z szerokiego zbioru specjalnymi makropoleceniami (zdecydowanie ma to miejsce w systemie LaTeX!). Tańsze sposoby to przede wszystkim umieszczanie dedykowanych rastrów wplatanych w tekst oraz specjalne czcionki składające się tylko z piktogramów.
Wstaw symbol
Jest to klasyczna metoda stosowana przez edytor Word. Sekcje dokumentu, w których konieczne miałoby być użycie tzw. dingbatów drukarskich, są sformatowane przy użyciu innej czcionki (np. Zapf Dingbats) składającej się wyłącznie z piktogramów. Ponieważ Word rozpoczynał swoją karierę na systemach o jednobajtowym kodowaniu, czcionki składające się z samych dingbatów towarzyszyły mu od dawna. Najbardziej znaną jest zbiór Wingdings, gdzie np. litera T jest płatkiem śniegu. Nie jest to symbol U+2744 SNOWFLAKE (❄), a zwykła litera T.
Klasyczne okno dodawania nowego symbolu specjalnego w programie Word można więc uznać za bardzo dużego szkodnika w czasach powszechnego Unicode'u. Wstawiane przez niego symbole są formatowane bezwarunkowo: wstawienie "otwartej skrzynki pocztowej" wstawi tę skrzynkę niepodatną na zmiany czcionki. Mimo że jest to w Wingdingsach odpowiednik kropki, zmiana tekstu na Calibri pozostawi wstawiony symbol w postaci skrzynki.
Tworzy to złudne wrażenie, że jest to element akurat używanej czcionki, albo (co jeszcze jeszcze dalsze od prawdy) emoji, podczas gdy jest to jedynie skomplikowana próba cierpliwości dla parserów tekstu innych od Worda. Szutczka z czcionkami Dingbats i Wingdings była popularna w czasach klasycznych systemów Windows z drugiej połowy lat 90-tych. Strony HTML zapisane w kodowaniu ISO-8859-1 i stworzone w programie FrontPage Express zakładały obecność owej czcionki w systemie i kodowały wszelkie drukarskie symbole oraz inne uśmiechy jako zwykły tekst w Dingbatach. Otwarcie takiej strony na systemie pozbawionym wariackiej czcionki sprawiało, że po tekście były rozsypane losowe litery, a czasem nawet całe szlaczki z czegoś, bo miało być np. samolocikiem.
Internet dingbatów
Word obecnie bardzo dobrze obsługuje Unicode, ale jego okno dodawania symbolu, znane z Office 2000 nie zmieniło się i dalej wykształca u użytkowników błędne nawyki prowadzące do mylenia emoji z dingbatami. Ale jeżeli ktoś myśli, że to tylko skromny grzech przeszłości, należy pilnie przypomnieć, że absurdalnie toksyczna obsługa dingbatów jest tak mocno wżarta w pakiet Office, że często pojawia się w niespodziewanych miejscach. Office po prostu nigdy nie został przepisany od zera i dziarsko nadbudowuje się nad często prawie trzydziesoletnią bazę.
Zamienianie symboli na litery w fikuśnych czcionkach, obowiązkowe formatowanie i założenie, że cały świat używa Windows 98 wciąż pokutują w wielu wersjach programu Microsoft Outlook. Klasyczny uśmiech :) jest "dla ułatwienia" konwertowany na 😀, ale nie jako emoji (symbol U+1F600), tylko literkę J, zapisaną w czcionce Wingdigs.
Poczta J
Domyślnie, Outlook wysyła maile w formacie HTML i dodaje do nich znaczniki formatowania Microsoft Office. Taki mail odebrany w innym Outlooku będzie wyglądać tak samo. Ale już otwarty w czymkolwiek innym wcale nie musi szanować niestandardowych sekcji formatowania. Może np. zastosować domyślną czcionkę dla reszty dokumentów. Wtedy to wszystkie uśmiechy zmienią się w literę J.
Office 365 (16.0) zawiera rozwiązanie tego problemu w większości przypadków. Starszy Outlook, np. 2010, dalej zachowuje się tak samo. To doskonały przykład na to, jak trudno zrzucić bagaż kompatybilności wstecznej, jak bardzo Microsoft twierdził niegdyś, że ma wyłączność na internet i jak cennym wynalazkiem, mimo pokaźnego śmietnika w symbolach, jest dzisiejszy Unicode.
Wszelkie najpopularniejsze piktogramy można dziś bowiem zapisywać "czystym tekstem" (choć wielobajtowym), bez konieczności aplikowania ton znaczników formatowania. Bez przesyłania wiadomości w formacie HTML "na wszelki wypadek", zwiększając jej rozmiar np. dwunastokrotnie. Opracowanie metody wymiany tekstu w sposób satysfakcjonujący dla większości odbiorców zajęło długie lata, a wiele półśrodków odbija się nam czkawką. Na szczęście, po latach, racjonalne standardy zwyciężyły.