Вход на сайт
"decode" broken docx...
256
25.05.12 13:11
господа,
меня тут попросили помочь, а я затупил. теперь и сам обращаюсь за помощью,
может встречался кто с такой проблемой.
предистория темная - есть файлы написанные в ворде (docx).
содержание: техт немецкий + русский, без картинок и др.
предположительно UTF-8.
после атаки троянов (каких - неизвестно) и изгнания оных,
некоторые файлы перестали читаться. т.е. они открываюстя, но
в окне только гарбидж, типа:
/* --
��#�_��A5�z�\��`O�M]��w�\#ge�;�}|n�F���gV��b#�C�g#���
��O�=##�&+>`#g�#J��
-- */
(связяно-ли это действительно с вирусами/троянами или с путанницей метода ввода
кирилицы и запомненного формата - неизвестно)
я пытался читать побайтово и группы байт с целью найти комбинации похожее слова со смыслом,
но обломился, видимо делаю что-то не то или действительно информация погибла.
думаю проблема такая не новая, надеюсь есть уже стандартные решения?
или может кто-нибудь алгоритмег "рашифровки" подскажет - а я на выходных напишу и доложу помогло-ли...
(цель - "добыть" из файла читабельные строчки, желательно в исходной последовательности, т.е. только инфу,
на всякие форматы и красивости - плевать)
всем спасибо, и пользуйясь случаем - за пятницу!
меня тут попросили помочь, а я затупил. теперь и сам обращаюсь за помощью,
может встречался кто с такой проблемой.
предистория темная - есть файлы написанные в ворде (docx).
содержание: техт немецкий + русский, без картинок и др.
предположительно UTF-8.
после атаки троянов (каких - неизвестно) и изгнания оных,
некоторые файлы перестали читаться. т.е. они открываюстя, но
в окне только гарбидж, типа:
/* --
��#�_��A5�z�\��`O�M]��w�\#ge�;�}|n�F���gV��b#�C�g#���
��O�=##�&+>`#g�#J��
-- */
(связяно-ли это действительно с вирусами/троянами или с путанницей метода ввода
кирилицы и запомненного формата - неизвестно)
я пытался читать побайтово и группы байт с целью найти комбинации похожее слова со смыслом,
но обломился, видимо делаю что-то не то или действительно информация погибла.
думаю проблема такая не новая, надеюсь есть уже стандартные решения?
или может кто-нибудь алгоритмег "рашифровки" подскажет - а я на выходных напишу и доложу помогло-ли...
(цель - "добыть" из файла читабельные строчки, желательно в исходной последовательности, т.е. только инфу,
на всякие форматы и красивости - плевать)
всем спасибо, и пользуйясь случаем - за пятницу!

Почему у будильников не бывает приятного звука?
NEW 25.05.12 13:17
в ответ pakhomenko 25.05.12 13:11
файлы .docx - это просто .zip архивы с определенной структурой. Попробуйте открыть их в каком-нибудь архиваторе и вытащить оттуда XML файлы. Объекты в которых находится текст лежать в подкаталоге "word", основной текст соответственно - "word/document.xml"
NEW 25.05.12 13:33
в ответ AlexOtt 25.05.12 13:17
похоже все плохо:
$ unzip Artemisinin.docx.orig.zip
Archive: Artemisinin.docx.orig.zip
error [Artemisinin.docx.orig.zip]: start of central directory not found;
zipfile corrupt.
(please check that you have transferred or created the zipfile in the
appropriate BINARY mode and that you have compiled UnZip properly)
при этом, один из тех файлов, кот. читаются, раззипливается без проблем:
$unzip Das2TagesLifeProgramm.docx.zip
Archive: Das2TagesLifeProgramm.docx.zip
inflating: [Content_Types].xml
inflating: _rels/.rels
inflating: word/_rels/document.xml.rels
inflating: word/document.xml
inflating: word/theme/theme1.xml
inflating: word/settings.xml
inflating: word/webSettings.xml
inflating: word/styles.xml
inflating: docProps/core.xml
inflating: word/numbering.xml
inflating: word/fontTable.xml
inflating: docProps/app.xml
jip@jip-new:/var/tmp/docx$
что странно - ворд и опен офис не говорят, что плохой формат, а как-то "читают"...
за совет - спасибо!
$ unzip Artemisinin.docx.orig.zip
Archive: Artemisinin.docx.orig.zip
error [Artemisinin.docx.orig.zip]: start of central directory not found;
zipfile corrupt.
(please check that you have transferred or created the zipfile in the
appropriate BINARY mode and that you have compiled UnZip properly)
при этом, один из тех файлов, кот. читаются, раззипливается без проблем:
$unzip Das2TagesLifeProgramm.docx.zip
Archive: Das2TagesLifeProgramm.docx.zip
inflating: [Content_Types].xml
inflating: _rels/.rels
inflating: word/_rels/document.xml.rels
inflating: word/document.xml
inflating: word/theme/theme1.xml
inflating: word/settings.xml
inflating: word/webSettings.xml
inflating: word/styles.xml
inflating: docProps/core.xml
inflating: word/numbering.xml
inflating: word/fontTable.xml
inflating: docProps/app.xml
jip@jip-new:/var/tmp/docx$
что странно - ворд и опен офис не говорят, что плохой формат, а как-то "читают"...
за совет - спасибо!

Почему у будильников не бывает приятного звука?
NEW 25.05.12 14:03
в ответ pakhomenko 25.05.12 13:33
без central directory в принципе можно восстановить, но я не знаю command-line тулзы для этого. можно попробовать с помощью 7zip и/или WinRar...
если есть способность к программированию, то можно написать вытаскивалку данных :-) перед каждым запакованным файлом в архиве идет заголовок, который часто содержит все необходимые данные, типа длины запакованной/распакованной и т.д.
если есть способность к программированию, то можно написать вытаскивалку данных :-) перед каждым запакованным файлом в архиве идет заголовок, который часто содержит все необходимые данные, типа длины запакованной/распакованной и т.д.
NEW 25.05.12 14:57
в ответ AlexOtt 25.05.12 14:03
я программер, но терзают меня смутные сомнения :-(
похоже нет в сломанных файлах заголовков, а то, что
текстовые процессоры их как-то открывают - так я /bin/ls в aaa.docx
скопировал, и "открыл" без проблем - и к стати - строчек
читабельных в /bin/ls больше, чем в этих файлах...
а может они зашифрованы?
работающий файл:
$ strings Das2TagesLifeProgramm.docx.zip|grep word
word/_rels/document.xml.rels
word/document.xml
word/theme/theme1.xml
word/settings.xml
word/webSettings.xml
word/styles.xml
word/numbering.xml
word/fontTable.xml
word/_rels/document.xml.relsPK
word/document.xmlPK
word/theme/theme1.xmlPK
word/settings.xmlPK
word/webSettings.xmlPK
word/styles.xmlPK
word/numbering.xmlPK
word/fontTable.xmlPK
j:/var/tmp/docx$
не работающий файл:
strings Artemisinin.docx.orig|grep word
word/styles.xmlPK
похоже нет в сломанных файлах заголовков, а то, что
текстовые процессоры их как-то открывают - так я /bin/ls в aaa.docx
скопировал, и "открыл" без проблем - и к стати - строчек
читабельных в /bin/ls больше, чем в этих файлах...
а может они зашифрованы?
работающий файл:
$ strings Das2TagesLifeProgramm.docx.zip|grep word
word/_rels/document.xml.rels
word/document.xml
word/theme/theme1.xml
word/settings.xml
word/webSettings.xml
word/styles.xml
word/numbering.xml
word/fontTable.xml
word/_rels/document.xml.relsPK
word/document.xmlPK
word/theme/theme1.xmlPK
word/settings.xmlPK
word/webSettings.xmlPK
word/styles.xmlPK
word/numbering.xmlPK
word/fontTable.xmlPK
j:/var/tmp/docx$
не работающий файл:
strings Artemisinin.docx.orig|grep word
word/styles.xmlPK
Почему у будильников не бывает приятного звука?
NEW 25.05.12 15:21
в ответ Simple 25.05.12 15:01
здорово!
а фара - это кто?
я попробовал ради интереса расапковать раборающий файл и глянуть
в word/document.xml
вот:
.....
<w:lang w:val="ru-RU"/></w:rPr><w:t xml:space="preserve"> подходит всем: исцеляет, восстанавливает и изменяет ваш образ жизни.</w:t></w:r></w:p><w:p w:rsidR="00D52A8E" w:rsidRPr="00D52A8E" w:rsidRDefault="00D52A8E" w:rsidP="00D52A8E">
......
натаскать строчек отсюда - как два байта переслать :-)
думаю проблема не на уровне документа, а на уровне сломанного зип,
если бы удалось получить не сжатое содержание - строчки (если они там есть)
я бы натаскал без проблем...
П.С.
к содержанию файлов я, как ты понимаешь, никакого отношения не несу, х.з. попросила... :-)
а фара - это кто?
я попробовал ради интереса расапковать раборающий файл и глянуть
в word/document.xml
вот:
.....
<w:lang w:val="ru-RU"/></w:rPr><w:t xml:space="preserve"> подходит всем: исцеляет, восстанавливает и изменяет ваш образ жизни.</w:t></w:r></w:p><w:p w:rsidR="00D52A8E" w:rsidRPr="00D52A8E" w:rsidRDefault="00D52A8E" w:rsidP="00D52A8E">
......
натаскать строчек отсюда - как два байта переслать :-)
думаю проблема не на уровне документа, а на уровне сломанного зип,
если бы удалось получить не сжатое содержание - строчки (если они там есть)
я бы натаскал без проблем...
П.С.
к содержанию файлов я, как ты понимаешь, никакого отношения не несу, х.з. попросила... :-)
Почему у будильников не бывает приятного звука?
NEW 25.05.12 16:13
в ответ pakhomenko 25.05.12 14:57
в смысле нет заголовков? заголовок части в zip-файле состоит из бинарной сигнатуры и данных заголовка, как описано в APPNOTE.TXT (который есть в поставке unzip (в исходниках)) и собственно запакованных данных (обычно это deflate algorithm). Вот например кусок документа:
00000000: 504b 0304 1400 0600 0800 0000 2100 0381 PK..........!...
00000010: 683b 9001 0000 2807 0000 1300 0802 5b43 h;....(.......[C
00000020: 6f6e 7465 6e74 5f54 7970 6573 5d2e 786d ontent_Types].xm
00000030: 6c20 a204 0228 a000 0200 0000 0000 0000 l ...(..........
00000040: 0000 0000 0000 0000 0000 0000 0000 0000 ................
00000050: 0000 0000 0000 0000 0000 0000 0000 0000 ................
..........
00000230: 0000 0000 0000 0000 00b4 95cb 6ac3 3010 ............j.0.
00000240: 45f7 85fe 83d1 b6d8 4aba 28a5 c4ce a28f E.......J.(.....
00000250: 651b 68fa 018a 348e 4d6d 4948 93d7 df77 e.h...4.MmIH...w
сигнатура
файла тут 0x504b0304, а дальше идет заголовок, и только с 0x239 должны начинаться сами данные... Вот эти данные-то и можно вытащить, и потом распаковать (или распаковывать сразу при вытаскивании)
NEW 25.05.12 17:06
в ответ AlexOtt 25.05.12 16:13
похоже на то :-(
od -x Fiebertherapie.docx|head
0000000 d844 81ce fbb3 c210 1d70 7841 7281 3879
0000020 a5a9 bda3 9c18 f278 feeb 87d3 c5e4 539f
0000040 40a9 3aeb be11 a198 25f3 3aa1 b046 950e
0000060 417e f38f c84f d324 1944 3e8e 19c1 fd6b
0000100 b285 0a79 95d7 215c 0532 5618 cbb0 ac41
0000120 c0c8 d33b c24e 435c 5547 ab10 9ede 09f3
0000140 dfe2 bee7 e76b 02c1 967e b769 4671 d374
0000160 7d60 dec8 ef77 0760 2432 6d94 1318 838e
0000200 a74a 3cb7 3059 2ec9 801c 9233 246e b8c2
0000220 ceb7 a555 326b a33a da35 f396 f92f 4ebc
а вот "нормальный" файл: (порядок быйт у нас разный)
od -x Das2TagesLifeProgramm.docx|head
0000000 4b50 0403 0014 0006 0008 0000 0021 c930
0000020 0c28 0172 0000 05a5 0000 0013 0208 435b
0000040 6e6f 6574 746e 545f 7079 7365 2e5d 6d78
0000060 206c 04a2 2802 00a0 0002 0000 0000 0000
0000100 0000 0000 0000 0000 0000 0000 0000 0000
*
0001060 0000 0000 0000 0000 b400 c954 c26e 1030
0001100 57bd 3fea be44 8956 87a1 aaaa 1c08 1cba
0001120 a45b 0fd2 f630 ac04 937a 6cc7 df7f a049
0001140 d551 9042 5c0a 2522 b7e3 e5f8 83d9 dad1
да и "file" это подтверждает:
file Das2TagesLifeProgramm.docx Fiebertherapie.docx
Das2TagesLifeProgramm.docx: Zip archive data, at least v2.0 to extract
Fiebertherapie.docx: data
слухай, ты очевидно в этом сечёшь - если зип запаролен - то хеадер ведь все равно в клеар техте?
зашифрованно ведь тока содержание? (иначе как зипу работать?)
od -x Fiebertherapie.docx|head
0000000 d844 81ce fbb3 c210 1d70 7841 7281 3879
0000020 a5a9 bda3 9c18 f278 feeb 87d3 c5e4 539f
0000040 40a9 3aeb be11 a198 25f3 3aa1 b046 950e
0000060 417e f38f c84f d324 1944 3e8e 19c1 fd6b
0000100 b285 0a79 95d7 215c 0532 5618 cbb0 ac41
0000120 c0c8 d33b c24e 435c 5547 ab10 9ede 09f3
0000140 dfe2 bee7 e76b 02c1 967e b769 4671 d374
0000160 7d60 dec8 ef77 0760 2432 6d94 1318 838e
0000200 a74a 3cb7 3059 2ec9 801c 9233 246e b8c2
0000220 ceb7 a555 326b a33a da35 f396 f92f 4ebc
а вот "нормальный" файл: (порядок быйт у нас разный)
od -x Das2TagesLifeProgramm.docx|head
0000000 4b50 0403 0014 0006 0008 0000 0021 c930
0000020 0c28 0172 0000 05a5 0000 0013 0208 435b
0000040 6e6f 6574 746e 545f 7079 7365 2e5d 6d78
0000060 206c 04a2 2802 00a0 0002 0000 0000 0000
0000100 0000 0000 0000 0000 0000 0000 0000 0000
*
0001060 0000 0000 0000 0000 b400 c954 c26e 1030
0001100 57bd 3fea be44 8956 87a1 aaaa 1c08 1cba
0001120 a45b 0fd2 f630 ac04 937a 6cc7 df7f a049
0001140 d551 9042 5c0a 2522 b7e3 e5f8 83d9 dad1
да и "file" это подтверждает:
file Das2TagesLifeProgramm.docx Fiebertherapie.docx
Das2TagesLifeProgramm.docx: Zip archive data, at least v2.0 to extract
Fiebertherapie.docx: data
слухай, ты очевидно в этом сечёшь - если зип запаролен - то хеадер ведь все равно в клеар техте?
зашифрованно ведь тока содержание? (иначе как зипу работать?)
Почему у будильников не бывает приятного звука?
NEW 25.05.12 18:51
в ответ pakhomenko 25.05.12 17:06
если zip зашифрован, то основной заголовок да, должен сохраняться. А если это зашифрованный документ MS Office 2007/2010, то тогда он будет в виде MS CFB dump, но там заголовок другой...
Тут похоже на то, что кто-то данных произвольных в файлы напихали
Тут похоже на то, что кто-то данных произвольных в файлы напихали
NEW 26.05.12 13:15
в ответ AlexOtt 25.05.12 18:51
похоже действительно на злобный вирус или
на чрезмерно ретивый антивирус...
завтра одному спецу еще покажу, но видимо придется
обломаться - низя вытащить данные из сломанного файла,
тем более если их там уже нет...
на чрезмерно ретивый антивирус...
завтра одному спецу еще покажу, но видимо придется
обломаться - низя вытащить данные из сломанного файла,
тем более если их там уже нет...
Почему у будильников не бывает приятного звука?