Start of STL binary reader; start of dumpsubs.
[libsub.git] / src / stl_binary_reader.cc
1 /*
2     Copyright (C) 2014 Carl Hetherington <cth@carlh.net>
3
4     This program is free software; you can redistribute it and/or modify
5     it under the terms of the GNU General Public License as published by
6     the Free Software Foundation; either version 2 of the License, or
7     (at your option) any later version.
8
9     This program is distributed in the hope that it will be useful,
10     but WITHOUT ANY WARRANTY; without even the implied warranty of
11     MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
12     GNU General Public License for more details.
13
14     You should have received a copy of the GNU General Public License
15     along with this program; if not, write to the Free Software
16     Foundation, Inc., 675 Mass Ave, Cambridge, MA 02139, USA.
17
18 */
19
20 #include <boost/lexical_cast.hpp>
21 #include "stl_binary_reader.h"
22 #include "exceptions.h"
23 #include "compose.hpp"
24
25 using std::map;
26 using std::cout;
27 using std::string;
28 using std::istream;
29 using boost::lexical_cast;
30 using namespace sub;
31
32 template <class T>
33 T
34 string_to_value (string k, map<string, STLCode<T> > m, string name)
35 {
36         typename map<string, STLCode<T> >::const_iterator i = m.find (k);
37         if (i == m.end ()) {
38                 throw STLError (String::compose ("Unknown %1 %2 in binary STL file", name, k));
39         }
40
41         return i->second.value;
42 }
43
44 template <class T>
45 string
46 value_to_description (T v, map<string, STLCode<T> > const & m)
47 {
48         for (typename map<string, STLCode<T> >::const_iterator i = m.begin(); i != m.end(); ++i) {
49                 if (i->second.value == v) {
50                         return i->second.description;
51                 }
52         }
53
54         return "";
55 }
56
57 template <class T>
58 void
59 code (map<string, STLCode<T> >& m, string k, T v, string d)
60 {
61         m[k] = STLCode<T> (v, d);
62 }
63
64
65 STLBinaryReader::STLBinaryReader (istream& in)
66         : _buffer (new unsigned char[1024])
67 {
68         create_maps ();
69         
70         in.read ((char *) _buffer, 1024);
71         if (in.gcount() != 1024) {
72                 throw STLError ("Could not read GSI block from binary STL file");
73         }
74                 
75         code_page_number = atoi (fixed_string (0, 3).c_str ());
76         
77         string const dfc = fixed_string (3, 8);
78         if (dfc == "STL24.01") {
79                 frame_rate = 24;
80         } else if (dfc == "STL25.01") {
81                 frame_rate = 25;
82         } else if (dfc == "STL30.01") {
83                 frame_rate = 30;
84         } else {
85                 throw STLError (String::compose ("Unknown disk format code %1 in binary STL file", dfc));
86         }
87
88         display_standard = string_to_value (fixed_string (11, 1), _display_standard_map, "display standard code");
89         language_group = string_to_value (fixed_string (12, 2), _language_group_map, "character code");
90         language = string_to_value (fixed_string (14, 2), _language_map, "language code");
91         original_programme_title = fixed_string (16, 32);
92         original_episode_title = fixed_string (48, 32);
93         translated_programme_title = fixed_string (80, 32);
94         translated_episode_title = fixed_string (112, 32);
95         translator_name = fixed_string (144, 32);
96         translator_contact_details = fixed_string (176, 32);
97         subtitle_list_reference_code = fixed_string (208, 32);
98         creation_date = fixed_string (224, 6);
99         revision_date = fixed_string (230, 6);
100         revision_number = fixed_string (236, 2);
101
102         tti_blocks = atoi (fixed_string (238, 6).c_str ());
103         number_of_subtitles = atoi (fixed_string (243, 5).c_str ());
104         subtitle_groups = atoi (fixed_string (248, 3).c_str ());
105         maximum_characters = atoi (fixed_string (251, 2).c_str ());
106         maximum_rows = atoi (fixed_string (253, 2).c_str ());
107         timecode_status = string_to_value (fixed_string (255, 1), _timecode_status_map, "timecode status code");
108         start_of_programme = fixed_string (256, 8);
109         first_in_cue = fixed_string (256, 8);
110         disks = atoi (fixed_string (272, 1).c_str ());
111         disk_sequence_number = atoi (fixed_string (273, 1).c_str ());
112         country_of_origin = fixed_string (274, 3);
113         publisher = fixed_string (277, 32);
114         editor_name = fixed_string (309, 32);
115         editor_contact_details = fixed_string (341, 32);
116 }
117
118 STLBinaryReader::~STLBinaryReader ()
119 {
120         delete[] _buffer;
121 }
122
123 string
124 STLBinaryReader::fixed_string (int offset, int length) const
125 {
126         string s;
127         for (int i = 0; i < length; ++i) {
128                 s += _buffer[offset + i];
129         }
130
131         return s;
132 }
133
134 map<string, string>
135 STLBinaryReader::metadata () const
136 {
137         map<string, string> m;
138
139         m["Code page number"] = lexical_cast<string> (code_page_number);
140         m["Frame rate"] = lexical_cast<string> (frame_rate);
141         m["Display standard"] = value_to_description (display_standard, _display_standard_map);
142         m["Language group"] = value_to_description (language_group, _language_group_map);
143         m["Language"] = value_to_description (language, _language_map);
144         m["Original programme title"] = original_programme_title;
145         m["Original episode title"] = original_episode_title;
146         m["Translated programme title"] = translated_programme_title;
147         m["Translated episode title"] = translated_episode_title;
148         m["Translator name"] = translator_name;
149         m["Translator contact details"] = translator_contact_details;
150         m["Subtitle list reference code"] = subtitle_list_reference_code;
151         m["Creation date"] = creation_date;
152         m["Revision date"] = revision_date;
153         m["Revision number"] = revision_number;
154         m["TTI blocks"] = lexical_cast<string> (tti_blocks);
155         m["Number of subtitles"] = lexical_cast<string> (number_of_subtitles);
156         m["Subtitle groups"] = lexical_cast<string> (subtitle_groups);
157         m["Maximum characters"] = lexical_cast<string> (maximum_characters);
158         m["Maximum rows"] = lexical_cast<string> (maximum_rows);
159         m["Timecode status"] = value_to_description (timecode_status, _timecode_status_map);
160         m["Start of programme"] = start_of_programme;
161         m["First in cue"] = first_in_cue;
162         m["Disks"] = lexical_cast<string> (disks);
163         m["Disk sequence number"] = lexical_cast<string> (disk_sequence_number);
164         m["Country of origin"] = country_of_origin;
165         m["Publisher"] = publisher;
166         m["Editor name"] = editor_name;
167         m["Editor contact details"] = editor_contact_details;
168
169         return m;
170 }
171
172 void
173 STLBinaryReader::create_maps ()
174 {
175         code (_display_standard_map, " ", DISPLAY_STANDARD_UNDEFINED, "Undefined");
176         code (_display_standard_map, "0", DISPLAY_STANDARD_OPEN_SUBTITLING, "Open subtitling");
177         code (_display_standard_map, "1", DISPLAY_STANDARD_LEVEL_1_TELETEXT, "Level 1 teletext");
178         code (_display_standard_map, "2", DISPLAY_STANDARD_LEVEL_2_TELETEXT, "Level 2 teletext");
179         
180         code (_language_group_map, "00", LANGUAGE_GROUP_LATIN, "Latin");
181         code (_language_group_map, "01", LANGUAGE_GROUP_LATIN_CYRILLIC, "Latin/Cyrillic");
182         code (_language_group_map, "02", LANGUAGE_GROUP_LATIN_ARABIC, "Latin/Arabic");
183         code (_language_group_map, "03", LANGUAGE_GROUP_LATIN_GREEK, "Latin/Greek");
184         code (_language_group_map, "04", LANGUAGE_GROUP_LATIN_HEBREW, "Latin/Hebrew");
185         
186         code (_language_map, "00", LANGUAGE_UNKNOWN, "Unknown");
187         code (_language_map, "01", LANGUAGE_ALBANIAN, "Albanian");
188         code (_language_map, "02", LANGUAGE_BRETON, "Breton");
189         code (_language_map, "03", LANGUAGE_CATALAN, "Catalan");
190         code (_language_map, "04", LANGUAGE_CROATIAN, "Croatian");
191         code (_language_map, "05", LANGUAGE_WELSH, "Welsh");
192         code (_language_map, "06", LANGUAGE_CZECH, "Czech");
193         code (_language_map, "07", LANGUAGE_DANISH, "Danish");
194         code (_language_map, "08", LANGUAGE_GERMAN, "German");
195         code (_language_map, "09", LANGUAGE_ENGLISH, "English");
196         code (_language_map, "0A", LANGUAGE_SPANISH, "Spanish");
197         code (_language_map, "0B", LANGUAGE_ESPERANTO, "Esperanto");
198         code (_language_map, "0C", LANGUAGE_ESTONIAN, "Estonian");
199         code (_language_map, "0D", LANGUAGE_BASQUE, "Basque");
200         code (_language_map, "0E", LANGUAGE_FAROESE, "Faroese");
201         code (_language_map, "0F", LANGUAGE_FRENCH, "French");
202         code (_language_map, "10", LANGUAGE_FRISIAN, "Frisian");
203         code (_language_map, "11", LANGUAGE_IRISH, "Irish");
204         code (_language_map, "12", LANGUAGE_GAELIC, "Gaelic");
205         code (_language_map, "13", LANGUAGE_GALACIAN, "Galacian");
206         code (_language_map, "14", LANGUAGE_ICELANDIC, "Icelandic");
207         code (_language_map, "15", LANGUAGE_ITALIAN, "Italian");
208         code (_language_map, "16", LANGUAGE_LAPPISH, "Lappish");
209         code (_language_map, "17", LANGUAGE_LATIN, "Latin");
210         code (_language_map, "18", LANGUAGE_LATVIAN, "Latvian");
211         code (_language_map, "19", LANGUAGE_LUXEMBORGIAN, "Luxemborgian");
212         code (_language_map, "1A", LANGUAGE_LITHUANIAN, "Lithuanian");
213         code (_language_map, "1B", LANGUAGE_HUNGARIAN, "Hungarian");
214         code (_language_map, "1C", LANGUAGE_MALTESE, "Maltese");
215         code (_language_map, "1D", LANGUAGE_DUTCH, "Dutch");
216         code (_language_map, "1E", LANGUAGE_NORWEGIAN, "Norwegian");
217         code (_language_map, "1F", LANGUAGE_OCCITAN, "Occitan");
218         code (_language_map, "20", LANGUAGE_POLISH, "Polish");
219         code (_language_map, "21", LANGUAGE_PORTUGESE, "Portugese");
220         code (_language_map, "22", LANGUAGE_ROMANIAN, "Romanian");
221         code (_language_map, "23", LANGUAGE_ROMANSH, "Romansh");
222         code (_language_map, "24", LANGUAGE_SERBIAN, "Serbian");
223         code (_language_map, "25", LANGUAGE_SLOVAK, "Slovak");
224         code (_language_map, "26", LANGUAGE_SLOVENIAN, "Slovenian");
225         code (_language_map, "27", LANGUAGE_FINNISH, "Finnish");
226         code (_language_map, "28", LANGUAGE_SWEDISH, "Swedish");
227         code (_language_map, "29", LANGUAGE_TURKISH, "Turkish");
228         code (_language_map, "2A", LANGUAGE_FLEMISH, "Flemish");
229         code (_language_map, "2B", LANGUAGE_WALLON, "Wallon");
230         code (_language_map, "7F", LANGUAGE_AMHARIC, "Amharic");
231         code (_language_map, "7E", LANGUAGE_ARABIC, "Arabic");
232         code (_language_map, "7D", LANGUAGE_ARMENIAN, "Armenian");
233         code (_language_map, "7C", LANGUAGE_ASSAMESE, "Assamese");
234         code (_language_map, "7B", LANGUAGE_AZERBAIJANI, "Azerbaijani");
235         code (_language_map, "7A", LANGUAGE_BAMBORA, "Bambora");
236         code (_language_map, "79", LANGUAGE_BIELORUSSIAN, "Bielorussian");
237         code (_language_map, "78", LANGUAGE_BENGALI, "Bengali");
238         code (_language_map, "77", LANGUAGE_BULGARIAN, "Bulgarian");
239         code (_language_map, "76", LANGUAGE_BURMESE, "Burmese");
240         code (_language_map, "75", LANGUAGE_CHINESE, "Chinese");
241         code (_language_map, "74", LANGUAGE_CHURASH, "Churash");
242         code (_language_map, "73", LANGUAGE_DARI, "Dari");
243         code (_language_map, "72", LANGUAGE_FULANI, "Fulani");
244         code (_language_map, "71", LANGUAGE_GEORGIAN, "Georgian");
245         code (_language_map, "70", LANGUAGE_GREEK, "Greek");
246         code (_language_map, "6F", LANGUAGE_GUJURATI, "Gujarati");
247         code (_language_map, "6E", LANGUAGE_GURANI, "Gurani");
248         code (_language_map, "6D", LANGUAGE_HAUSA, "Hausa");
249         code (_language_map, "6C", LANGUAGE_HEBREW, "Hebrew");
250         code (_language_map, "6B", LANGUAGE_HINDI, "Hindi");
251         code (_language_map, "6A", LANGUAGE_INDONESIAN, "Indonesian");
252         code (_language_map, "69", LANGUAGE_JAPANESE, "Japanese");
253         code (_language_map, "68", LANGUAGE_KANNADA, "Kannada");
254         code (_language_map, "67", LANGUAGE_KAZAKH, "Kazakh");
255         code (_language_map, "66", LANGUAGE_KHMER, "Khmer");
256         code (_language_map, "65", LANGUAGE_KOREAN, "Korean");
257         code (_language_map, "64", LANGUAGE_LAOTIAN, "Laotian");
258         code (_language_map, "63", LANGUAGE_MACEDONIAN, "Macedonian");
259         code (_language_map, "62", LANGUAGE_MALAGASAY, "Malagasay");
260         code (_language_map, "61", LANGUAGE_MALAYSIAN, "Malaysian");
261         code (_language_map, "60", LANGUAGE_MOLDAVIAN, "Moldavian");
262         code (_language_map, "5F", LANGUAGE_MARATHI, "Marathi");
263         code (_language_map, "5E", LANGUAGE_NDEBELE, "Ndebele");
264         code (_language_map, "5D", LANGUAGE_NEPALI, "Nepali");
265         code (_language_map, "5C", LANGUAGE_ORIYA, "Oriya");
266         code (_language_map, "5B", LANGUAGE_PAPAMIENTO, "Papamiento");
267         code (_language_map, "5A", LANGUAGE_PERSIAN, "Persian");
268         code (_language_map, "59", LANGUAGE_PUNJABI, "Punjabi");
269         code (_language_map, "58", LANGUAGE_PUSHTU, "Pushtu");
270         code (_language_map, "57", LANGUAGE_QUECHUA, "Quechua");
271         code (_language_map, "56", LANGUAGE_RUSSIAN, "Russian");
272         code (_language_map, "55", LANGUAGE_RUTHENIAN, "Ruthenian");
273         code (_language_map, "54", LANGUAGE_SERBO_CROAT, "Serbo Croat");
274         code (_language_map, "53", LANGUAGE_SHONA, "Shona");
275         code (_language_map, "52", LANGUAGE_SINHALESE, "Sinhalese");
276         code (_language_map, "51", LANGUAGE_SOMALI, "Somali");
277         code (_language_map, "50", LANGUAGE_SRANAN_TONGO, "Sranan Tongo");
278         code (_language_map, "4F", LANGUAGE_SWAHILI, "Swahili");
279         code (_language_map, "4E", LANGUAGE_TADZHIK, "Tadzhik");
280         code (_language_map, "4D", LANGUAGE_TAMIL, "Tamil");
281         code (_language_map, "4C", LANGUAGE_TATAR, "Tatar");
282         code (_language_map, "4B", LANGUAGE_TELUGU, "Telugu");
283         code (_language_map, "4A", LANGUAGE_THAI, "Thai");
284         code (_language_map, "49", LANGUAGE_UKRANIAN, "Ukranian");
285         code (_language_map, "48", LANGUAGE_URDU, "Urdu");
286         code (_language_map, "47", LANGUAGE_UZBEK, "Uzbek");
287         code (_language_map, "46", LANGUAGE_VIETNAMESE, "Vietnamese");
288         code (_language_map, "45", LANGUAGE_ZULU, "Zulu");
289
290         code (_timecode_status_map, "0", TIMECODE_STATUS_NOT_INTENDED_FOR_USE, "Not intended for use");
291         code (_timecode_status_map, "1", TIMECODE_STATUS_INTENDED_FOR_USE, "Intended for use");
292 }