Ujawniono algorytm serializacji Java

Serializacja to proces zapisywania stanu obiektu w sekwencji bajtów; deserializacja to proces przebudowy tych bajtów na aktywny obiekt. Interfejs API serializacji języka Java zapewnia programistom standardowy mechanizm obsługi serializacji obiektów. W tej wskazówce zobaczysz, jak serializować obiekt i dlaczego serializacja jest czasami konieczna. Dowiesz się o algorytmie serializacji używanym w Javie i zobaczysz przykład ilustrujący serializowany format obiektu. Zanim skończysz, powinieneś mieć solidną wiedzę o tym, jak działa algorytm serializacji i jakie jednostki są serializowane jako część obiektu na niskim poziomie.

Dlaczego jest wymagana serializacja?

W dzisiejszym świecie typowa aplikacja korporacyjna będzie składać się z wielu komponentów i będzie dystrybuowana w różnych systemach i sieciach. W Javie wszystko jest przedstawiane jako obiekty; jeśli dwa komponenty Java chcą się ze sobą komunikować, potrzebny jest mechanizm wymiany danych. Jednym ze sposobów osiągnięcia tego jest zdefiniowanie własnego protokołu i przesłanie obiektu. Oznacza to, że odbiorca musi znać protokół używany przez nadawcę do odtworzenia obiektu, co bardzo utrudniłoby komunikację z komponentami innych firm. W związku z tym musi istnieć ogólny i skuteczny protokół do przesyłania obiektu między komponentami. W tym celu zdefiniowano serializację, a komponenty Java używają tego protokołu do przesyłania obiektów.

Rysunek 1 przedstawia widok wysokiego poziomu komunikacji klient / serwer, w którym obiekt jest przesyłany z klienta na serwer poprzez serializację.

Rysunek 1. Widok wysokiego poziomu serializacji w akcji (kliknij, aby powiększyć)

Jak serializować obiekt

Aby serializować obiekt, musisz upewnić się, że klasa obiektu implementuje java.io.Serializableinterfejs, jak pokazano na liście 1.

Listing 1. Wdrażanie serializacji

 import java.io.Serializable; class TestSerial implements Serializable { public byte version = 100; public byte count = 0; } 

Na liście 1 jedyną rzeczą, którą trzeba było zrobić inaczej niż podczas tworzenia normalnej klasy, jest zaimplementowanie java.io.Serializableinterfejsu. SerializableInterfejsem jest interfejs znacznik; w ogóle nie deklaruje żadnych metod. Informuje mechanizm serializacji, że klasa może być serializowana.

Teraz, gdy klasa kwalifikuje się do serializacji, następnym krokiem jest faktyczna serializacja obiektu. Odbywa się to przez wywołanie writeObject()metody java.io.ObjectOutputStreamklasy, jak pokazano na listingu 2.

Listing 2. Wywołanie metody writeObject ()

 public static void main(String args[]) throws IOException { FileOutputStream fos = new FileOutputStream("temp.out"); ObjectOutputStream oos = new ObjectOutputStream(fos); TestSerial ts = new TestSerial(); oos.writeObject(ts); oos.flush(); oos.close(); } 

Listing 2 przechowuje stan TestSerialobiektu w pliku o nazwie temp.out. oos.writeObject(ts);faktycznie uruchamia algorytm serializacji, który z kolei zapisuje obiekt temp.out.

Aby ponownie utworzyć obiekt z pliku trwałego, należy użyć kodu z listingu 3.

Listing 3. Ponowne utworzenie zserializowanego obiektu

 public static void main(String args[]) throws IOException { FileInputStream fis = new FileInputStream("temp.out"); ObjectInputStream oin = new ObjectInputStream(fis); TestSerial ts = (TestSerial) oin.readObject(); System.out.println("version="+ts.version); } 

Na liście 3 przywrócenie obiektu następuje za pomocą oin.readObject()wywołania metody. To wywołanie metody odczytuje nieprzetworzone bajty, które wcześniej utrwaliliśmy, i tworzy obiekt na żywo, który jest dokładną repliką oryginalnego grafu obiektów. Ponieważ readObject()można odczytać dowolny obiekt możliwy do serializacji, wymagane jest rzutowanie na prawidłowy typ.

Wykonanie tego kodu spowoduje wydrukowanie version=100na standardowym wyjściu.

Zserializowany format obiektu

Jak wygląda serializowana wersja obiektu? Pamiętaj, że przykładowy kod w poprzedniej sekcji zapisał zserializowaną wersję TestSerialobiektu do pliku temp.out. Listing 4 przedstawia zawartość temp.out, wyświetlaną szesnastkowo. (Potrzebujesz edytora szesnastkowego, aby zobaczyć dane wyjściowe w formacie szesnastkowym).

Listing 4. Szesnastkowa postać TestSerial

 AC ED 00 05 73 72 00 0A 53 65 72 69 61 6C 54 65 73 74 A0 0C 34 00 FE B1 DD F9 02 00 02 42 00 05 63 6F 75 6E 74 42 00 07 76 65 72 73 69 6F 6E 78 70 00 64 

Jeśli spojrzysz ponownie na rzeczywisty TestSerialobiekt, zobaczysz, że ma tylko dwa bajty, jak pokazano na Listingu 5.

Listing 5. Składowe bajtów TestSerial

 public byte version = 100; public byte count = 0; 

Rozmiar zmiennej bajtowej to jeden bajt, stąd całkowity rozmiar obiektu (bez nagłówka) to dwa bajty. Ale jeśli spojrzysz na rozmiar serializowanego obiektu na liście 4, zobaczysz 51 bajtów. Niespodzianka! Skąd się wzięły dodatkowe bajty i jakie jest ich znaczenie? Są one wprowadzane przez algorytm serializacji i są wymagane do ponownego utworzenia obiektu. W następnej sekcji szczegółowo poznasz ten algorytm.

Algorytm serializacji Javy

Do tej pory powinieneś mieć całkiem dobrą wiedzę na temat serializacji obiektu. Ale jak ten proces przebiega pod maską? Ogólnie algorytm serializacji wykonuje następujące czynności:

 • It writes out the metadata of the class associated with an instance.
 • It recursively writes out the description of the superclass until it finds java.lang.object.
 • Once it finishes writing the metadata information, it then starts with the actual data associated with the instance. But this time, it starts from the topmost superclass.
 • It recursively writes the data associated with the instance, starting from the least superclass to the most-derived class.

I've written a different example object for this section that will cover all possible cases. The new sample object to be serialized is shown in Listing 6.

Listing 6. Sample serialized object

 class parent implements Serializable { int parentVersion = 10; } class contain implements Serializable{ int containVersion = 11; } public class SerialTest extends parent implements Serializable { int version = 66; contain con = new contain(); public int getVersion() { return version; } public static void main(String args[]) throws IOException { FileOutputStream fos = new FileOutputStream("temp.out"); ObjectOutputStream oos = new ObjectOutputStream(fos); SerialTest st = new SerialTest(); oos.writeObject(st); oos.flush(); oos.close(); } } 

This example is a straightforward one. It serializes an object of type SerialTest, which is derived from parent and has a container object, contain. The serialized format of this object is shown in Listing 7.

Listing 7. Serialized form of sample object

 AC ED 00 05 73 72 00 0A 53 65 72 69 61 6C 54 65 73 74 05 52 81 5A AC 66 02 F6 02 00 02 49 00 07 76 65 72 73 69 6F 6E 4C 00 03 63 6F 6E 74 00 09 4C 63 6F 6E 74 61 69 6E 3B 78 72 00 06 70 61 72 65 6E 74 0E DB D2 BD 85 EE 63 7A 02 00 01 49 00 0D 70 61 72 65 6E 74 56 65 72 73 69 6F 6E 78 70 00 00 00 0A 00 00 00 42 73 72 00 07 63 6F 6E 74 61 69 6E FC BB E6 0E FB CB 60 C7 02 00 01 49 00 0E 63 6F 6E 74 61 69 6E 56 65 72 73 69 6F 6E 78 70 00 00 00 0B 

Figure 2 offers a high-level look at the serialization algorithm for this scenario.

Figure 2. An outline of the serialization algorithm

Let's go through the serialized format of the object in detail and see what each byte represents. Begin with the serialization protocol information:

 • AC ED: STREAM_MAGIC. Specifies that this is a serialization protocol.
 • 00 05: STREAM_VERSION. The serialization version.
 • 0x73: TC_OBJECT. Specifies that this is a new Object.

The first step of the serialization algorithm is to write the description of the class associated with an instance. The example serializes an object of type SerialTest, so the algorithm starts by writing the description of the SerialTest class.

 • 0x72: TC_CLASSDESC. Specifies that this is a new class.
 • 00 0A: Length of the class name.
 • 53 65 72 69 61 6c 54 65 73 74: SerialTest, the name of the class.
 • 05 52 81 5A AC 66 02 F6: SerialVersionUID, the serial version identifier of this class.
 • 0x02: Various flags. This particular flag says that the object supports serialization.
 • 00 02: Number of fields in this class.

Next, the algorithm writes the field int version = 66;.

 • 0x49: Field type code. 49 represents "I", which stands for Int.
 • 00 07: Length of the field name.
 • 76 65 72 73 69 6F 6E: version, the name of the field.

And then the algorithm writes the next field, contain con = new contain();. This is an object, so it will write the canonical JVM signature of this field.

 • 0x74: TC_STRING. Represents a new string.
 • 00 09: Length of the string.
 • 4C 63 6F 6E 74 61 69 6E 3B: Lcontain;, the canonical JVM signature.
 • 0x78: TC_ENDBLOCKDATA, the end of the optional block data for an object.

The next step of the algorithm is to write the description of the parent class, which is the immediate superclass of SerialTest.

 • 0x72: TC_CLASSDESC. Specifies that this is a new class.
 • 00 06: Length of the class name.
 • 70 61 72 65 6E 74: SerialTest, the name of the class
 • 0E DB D2 BD 85 EE 63 7A: SerialVersionUID, the serial version identifier of this class.
 • 0x02: Various flags. This flag notes that the object supports serialization.
 • 00 01: Number of fields in this class.

Now the algorithm will write the field description for the parent class. parent has one field, int parentVersion = 100;.

 • 0x49: Field type code. 49 represents "I", which stands for Int.
 • 00 0D: Length of the field name.
 • 70 61 72 65 6E 74 56 65 72 73 69 6F 6E: parentVersion, the name of the field.
 • 0x78: TC_ENDBLOCKDATA, the end of block data for this object.
 • 0x70: TC_NULL, which represents the fact that there are no more superclasses because we have reached the top of the class hierarchy.

So far, the serialization algorithm has written the description of the class associated with the instance and all its superclasses. Next, it will write the actual data associated with the instance. It writes the parent class members first:

 • 00 00 00 0A: 10, the value of parentVersion.

Then it moves on to SerialTest.

 • 00 00 00 42: 66, the value of version.

The next few bytes are interesting. The algorithm needs to write the information about the contain object, shown in Listing 8.

Listing 8. The contain object

 contain con = new contain(); 

Remember, the serialization algorithm hasn't written the class description for the contain class yet. This is the opportunity to write this description.

 • 0x73: TC_OBJECT, designating a new object.
 • 0x72: TC_CLASSDESC.
 • 00 07: Length of the class name.
 • 63 6F 6E 74 61 69 6E: contain, the name of the class.
 • FC BB E6 0E FB CB 60 C7: SerialVersionUID, the serial version identifier of this class.
 • 0x02: Various flags. This flag indicates that this class supports serialization.
 • 00 01: Number of fields in this class.

Next, the algorithm must write the description for contain's only field, int containVersion = 11;.

 • 0x49: Field type code. 49 represents "I", which stands for Int.
 • 00 0E: Length of the field name.
 • 63 6F 6E 74 61 69 6E 56 65 72 73 69 6F 6E: containVersion, the name of the field.
 • 0x78: TC_ENDBLOCKDATA.

Next, the serialization algorithm checks to see if contain has any parent classes. If it did, the algorithm would start writing that class; but in this case there is no superclass for contain, so the algorithm writes TC_NULL.

 • 0x70: TC_NULL.

Finally, the algorithm writes the actual data associated with contain.

 • 00 00 00 0B: 11, the value of containVersion.

Conclusion

In this tip, you have seen how to serialize an object, and learned how the serialization algorithm works in detail. I hope this article gives you more detail on what happens when you actually serialize an object.

About the author

Sathiskumar Palaniappan ma ponad czteroletnie doświadczenie w branży IT i od ponad trzech lat pracuje z technologiami związanymi z Javą. Obecnie pracuje jako inżynier oprogramowania systemowego w Java Technology Center, IBM Labs. Posiada również doświadczenie w branży telekomunikacyjnej.

Zasoby

 • Przeczytaj specyfikację serializacji obiektów Java. (Specyfikacja to plik PDF).
 • „Spłaszcz swoje obiekty: odkryj sekrety Java Serialization API” (Todd M. Greanier, JavaWorld, lipiec 2000) pozwala przyjrzeć się zasadom procesu serializacji.
 • Rozdział 10 Java RMI (William Grosso, O'Reilly, październik 2001) jest również przydatnym źródłem informacji.

Ta historia „Ujawniony algorytm serializacji Javy” została pierwotnie opublikowana przez JavaWorld.