added decryption function for alg1/2

2019-09-26 17:45:41 +02:00
parent c8d732806f
commit 5af03d1ebb
1 changed files with 73 additions and 15 deletions
--- a/pdfgrab.py
+++ b/pdfgrab.py
@@ -10,10 +10,16 @@
 # TODO
 # * json output
 # * txt output
 # * catch ssl exceptions
 # * catch conn refused connections
 # * set option for certificate verification, default is false
 # * complete analyse.txt and seperated
 # * clean up code
 # * do more testing
 # * add random useragent for google and website pdf gathering
 #
 # Done
 # * add decryption routine
 # * catch ssl exceptions
 import os
 import sys
@@ -35,6 +41,61 @@ def url_strip(url):
 	url = url.rstrip("\r")
 	return url
 def get_DocInfo(filename, filehandle):
 	fh = filehandle
 	try:
 		extract = fh.documentInfo
 	except pdf.utils.PdfReadError as e:
 		print('Error: %s' % e)
 		return -1
 	print('-'*80)
 	print('File: %s' % filename)
 	for k in extract.keys():
 		edata = '%s %s' % (k,extract[k])
 		print(edata)
 		print
 	print('-'*80)
 def decrypt_empty_pdf(filename):
 	fr = pdf.PdfFileReader(open(filename,"rb"))
 	try:
 		fr.decrypt('')
 	except NotImplementedError as e:
 		print('Error: %s' % (e))
 		print('Only algorithm code 1 and 2 are supported')
 		return -1
 	return fr
 def check_encryption(filename):
 	''' basic function to check if file is encrypted 
 	'''
 	print(filename)
 	try:
 		fr = pdf.PdfFileReader(open(filename,"rb"))
 	except pdf.utils.PdfReadError as e:
 		print('Error: %s' % e)
 		return -1
 	if fr.getIsEncrypted()==True:
 		print('[i] File encrypted %s' % filename)
 		nfr = decrypt_empty_pdf(filename)
 		if nfr != -1:
 			get_DocInfo(filename,nfr)
 	else:
 		get_DocInfo(filename,fr)
 	#fr.close()
 	return True
 def find_name(pdf):
 	''' simply parses the urlencoded name and extracts the storage name
 		i would not be surprised this naive approach can lead to fuckups
@@ -76,7 +137,12 @@ def store_pdf(url,data,outdir):
 	''' storing the downloaded pdf data '''
 	name = find_name(url)
 	save = "%s/%s" % (outdir,name)
-	f = open(save,"wb")
+	try:
 		f = open(save,"wb")
 	except OSError as e:
 		print('Error: %s' % (e))
 		return -1
 	ret=f.write(data)
 	print('[+] Written %d bytes for File: %s' % (ret,save))
 	f.close()
@@ -87,6 +153,9 @@ def store_pdf(url,data,outdir):
 def _parse_pdf(filename):
 	''' the real parsing function '''
 	check_encryption(filename)
 	return True
 	print('[+] Opening %s' % filename)
 	pdfile = open(filename,'rb')
@@ -95,20 +164,9 @@ def _parse_pdf(filename):
 	except pdf.utils.PdfReadError as e:
 		print('[-] Error: %s' % (e))
 		return
 	return pdfile
 	try:
 		extract = h.documentInfo
 	except pdf.utils.PdfReadError as e:
 		print('Error: %s' % e)
 		return -1
 	print('-'*80)
 	print('File: %s' % filename)
 	for k in extract.keys():
 		edata = '%s %s' % (k,extract[k])
 		print(edata)
 		print
 	print('-'*80)
 def parse_single_pdf(filename):
 	''' single parse function '''