
Closed
Posted
Paid on delivery
# Auftragsbeschreibung — Aufbau eines Dokumenten-Testkorpus **Auftragstyp:** Recherche- und Sammelaufgabe. **Lieferform:** Strukturierte Dateisammlung mit Begleit-Tabelle. **Vorkenntnisse:** Keine juristischen oder technischen Vorkenntnisse erforderlich. Sorgfalt, Strukturtreue und Zuverlässigkeit sind die wesentlichen Anforderungen. --- ## 1. Worum es geht Für die Entwicklung und Qualitätsprüfung einer Software zur automatischen Dokumentenverarbeitung wird ein realistischer, breit gestreuter Testdatensatz benötigt. Die Software muss mit der ganzen Bandbreite real vorkommender Dokumente zurechtkommen — gut und schlecht, sauber und unsauber. Dafür braucht es echtes, vielfältiges Material. Die Aufgabe besteht darin, einen Katalog deutschsprachiger Dokumente zusammenzustellen, auf die unten beschriebene Weise zu erfassen, zu kategorisieren und zu dokumentieren. Es handelt sich um eine reine Sammel- und Strukturierungsaufgabe. Die Dokumente werden nicht inhaltlich bewertet, gelesen oder zusammengefasst. --- ## 2. Welche Dokumente gesucht werden Gesucht werden deutschsprachige Dokumente aus diesen Kategorien: - Verträge (z. B. Mobilfunk, Energie, Miete, Versicherung, Mitgliedschaften, Abonnements) - Allgemeine Geschäftsbedingungen (AGB) - Behördliche und amtliche Schreiben - Rechnungen und vertragsähnliche Geschäftspost Wichtig ist die **Vielfalt**, nicht die Menge an gleichartigem Material. Dokumente sollen quer durch alle Kategorien, Quellen und Qualitätsstufen gehen. --- ## 3. Vielfalts-Vorgaben (verbindlich) Der Katalog muss über mehrere Achsen gestreut sein. Diese Streuung ist der eigentliche Wert der Aufgabe. **Nach Dateiformat:** - PDF-Dateien mit echtem, markierbarem Text (Text lässt sich im PDF-Betrachter mit der Maus markieren) - PDF-Dateien, die eingescannt sind (Text lässt sich *nicht* markieren — es ist ein Bild) - Fotos von Dokumenten (JPG, PNG, HEIC) — mit dem Smartphone aufgenommen - HTML-Seiten / Webseiten-AGB (als gespeicherte Datei oder als URL-Liste) **Nach Qualität — bewusst auch schlechtes Material:** - saubere, gerade, gut lesbare Dokumente - schief fotografierte, schlecht beleuchtete, unscharfe Aufnahmen - ältere, verknickte, blasse oder fleckige Vorlagen - Dokumente mit Stempeln, Unterschriften oder Notizen Schlechte Beispiele sind ausdrücklich erwünscht. Die Software muss gerade mit schlechtem Material getestet werden. **Nach Layout:** - einfache einspaltige Dokumente - mehrspaltige Layouts - Dokumente mit Tabellen - Dokumente mit Briefköpfen, Fußzeilen, Seitenrändern voller Kleingedrucktem **Nach Umfang:** - kurze Dokumente (1–3 Seiten) - mittlere (4–10 Seiten) - lange (über 10 Seiten) **Nach Quelle:** - möglichst aus verschiedenen Anbietern, Branchen und Behörden - nicht alles von einer einzigen Website oder einem einzigen Unternehmen --- ## 4. Herkunft der Dokumente — verbindliche Regeln Die Dokumente müssen rechtlich unbedenklich beschafft sein. Verbindlich: - **Öffentlich zugängliche Dokumente** sind die bevorzugte Quelle: AGB von Unternehmenswebseiten, öffentlich publizierte Musterverträge, frei abrufbare amtliche Formulare und Schreiben. - **Eigene Dokumente** dürfen verwendet werden, wenn der Sammelnde sie selbst besitzt und beisteuern möchte. In diesem Fall müssen vor der Übergabe alle persönlichen Angaben unkenntlich gemacht werden (siehe Abschnitt 5). - **Fremde personenbezogene Dokumente dürfen nicht beschafft werden.** Es dürfen keine Verträge, Schreiben oder Rechnungen anderer, namentlich bekannter Personen gesammelt werden. - Keine Beschaffung über unbefugten Zugriff, Weitergabe durch Dritte ohne deren Einverständnis, oder aus nicht öffentlich zugänglichen Quellen. Im Zweifel gilt: Wenn unklar ist, ob ein Dokument rechtlich unbedenklich beigesteuert werden kann, wird es **nicht** in den Katalog aufgenommen. --- ## 5. Behandlung persönlicher Daten Da reale Dokumente persönliche Angaben enthalten können, gilt verbindlich: - Vor Übergabe sind in allen Dokumenten persönliche Daten zu schwärzen oder zu entfernen: Namen, Adressen, Telefonnummern, E-Mail-Adressen, Kunden- und Vertragsnummern, Kontodaten, Geburtsdaten, Unterschriften. - Die Schwärzung muss **inhaltlich vollständig** sein — geschwärzte Stellen dürfen nicht durch bloßes Markieren wieder lesbar sein. Bei PDFs ist die Stelle tatsächlich zu entfernen, nicht nur farbig zu überdecken. Bei Fotos ist der Bereich im Bild unkenntlich zu machen. - Die **Struktur** des Dokuments bleibt dabei erhalten: Eine geschwärzte Adresse bleibt als „hier stand eine Adresse" erkennbar, das Layout verändert sich nicht. Es wird nur der persönliche Inhalt entfernt, nicht das Dokument umgebaut. Falls Unsicherheit besteht, wie eine bestimmte Stelle zu behandeln ist, wird sie konservativ geschwärzt. --- ## 6. Lieferform ### 6.1 Ordnerstruktur Eine flache Sammlung aller Dateien in einem Ordner. Jede Datei bekommt einen eindeutigen, fortlaufenden Namen, z. B. `[login to view URL]`, `[login to view URL]`, `[login to view URL]`. Keine Unterordner, keine Gruppierung — die Kategorisierung erfolgt vollständig über die Begleit-Tabelle. ### 6.2 Begleit-Tabelle Eine Tabelle (CSV oder Excel) mit **einer Zeile pro Dokument** und folgenden Spalten: | Spalte | Inhalt | |---|---| | `dateiname` | exakter Dateiname, z. B. `[login to view URL]` | | `kategorie` | Vertrag / AGB / Behördenschreiben / Rechnung | | `format` | Text-PDF / Scan-PDF / Foto / HTML | | `qualitaet` | gut / mittel / schlecht — eigene Einschätzung | | `seitenzahl` | Anzahl Seiten | | `layout` | einspaltig / mehrspaltig / mit Tabellen / gemischt | | `quelle_typ` | öffentlich zugänglich / eigenes Dokument | | `quelle_hinweis` | grobe Quellenangabe ohne personenbezogene Daten, z. B. „AGB-Seite eines Mobilfunkanbieters", „eigener Mietvertrag, geschwärzt" | | `geschwaerzt` | ja / nein — wurden persönliche Daten entfernt | | `bemerkung` | Auffälligkeiten, z. B. „schief fotografiert", „enthält handschriftliche Notiz", „blass" | Bei HTML-Quellen, die nur als URL vorliegen, steht statt eines Dateinamens die vollständige URL in einer zusätzlichen Spalte `url`. ### 6.3 Format-Bestimmung — Hilfestellung Die Unterscheidung Text-PDF vs. Scan-PDF ist wichtig und einfach zu prüfen: - PDF im Betrachter öffnen, versuchen, mit der Maus einen Satz im Text zu markieren. - Lässt sich Text markieren und kopieren → **Text-PDF**. - Lässt sich kein Text markieren, der Mauszeiger verhält sich wie über einem Bild → **Scan-PDF**. - Funktioniert es auf manchen Seiten und auf anderen nicht → in `bemerkung` „gemischt" vermerken, als `format` die überwiegende Art angeben. --- ## 7. Mengenrahmen Zielgröße: 120 - 150 Dokumente Die Verteilung über die Vielfalts-Achsen (Abschnitt 3) ist wichtiger als das Erreichen der oberen Mengengrenze. Richtwerte für die Streuung (anzupassen durch den Auftraggeber): - etwa je ein Viertel Text-PDF, Scan-PDF, Foto, HTML - mindestens ein Drittel der Foto- und Scan-Dokumente bewusst in mittlerer oder schlechter Qualität - alle vier Kategorien aus Abschnitt 2 vertreten - Dokumente aus mindestens [Zahl einsetzen] verschiedenen Quellen/Anbietern --- ## 8. Abnahmekriterien Die Lieferung gilt als vollständig, wenn: 1. Alle Dateien eindeutig benannt und in einem flachen Ordner liegen. 2. Die Begleit-Tabelle für jede Datei eine vollständige Zeile enthält. 3. Die Vielfalts-Vorgaben aus Abschnitt 3 erkennbar erfüllt sind — die Sammlung ist nicht einseitig. 4. Alle als `geschwaerzt = ja` markierten Dokumente tatsächlich frei von lesbaren persönlichen Daten sind. 5. Die Herkunftsregeln aus Abschnitt 4 eingehalten wurden. 6. Format-Angaben (Text-PDF vs. Scan-PDF) stichprobenartig korrekt sind. --- ## 9. Was ausdrücklich nicht Teil der Aufgabe ist - Die Dokumente werden nicht gelesen, nicht zusammengefasst, nicht inhaltlich bewertet. - Es wird keine Software bedient und nichts programmiert. - Es werden keine Dokumente verändert außer der Schwärzung persönlicher Daten. - Es werden keine Dokumente erzeugt oder nachgestellt — gesucht ist ausschließlich echtes, real existierendes Material. --- ## 10. Hinweis zur Vertraulichkeit Der zusammengestellte Katalog und diese Auftragsbeschreibung sind vertraulich zu behandeln und nicht weiterzugeben. Der Katalog dient ausschließlich internen Test- und Entwicklungszwecken.
Project ID: 40452255
17 proposals
Remote project
Active 6 days ago
Set your budget and timeframe
Get paid for your work
Outline your proposal
It's free to sign up and bid on jobs
17 freelancers are bidding on average €442 EUR for this job

Testkorpora für Dokumentenverarbeitungs-Software habe ich schon aufgebaut — der schwierigste Teil ist meist nicht das Sammeln, sondern sicherzustellen, dass die Qualitätsspreizung (sauber vs. gescannt vs. schlecht formatiert) wirklich repräsentativ ist. 1. Welches Format soll die Begleit-Tabelle haben, und welche Metadatenfelder sind Pflicht — z. B. Kategorie, Quelle, Sprache, Qualitätsstufe, Dateiformat? 2. Dürfen Dokumente aus öffentlich zugänglichen Quellen (z. B. Musterverträge, Behördenvorlagen) stammen, oder werden ausschließlich echte, im Umlauf gewesene Originale benötigt? 3. Wie soll mit personenbezogenen Daten umgegangen werden — Anonymisierung durch mich, Schwärzung, oder ist das für den Testkorpus irrelevant? 4. Gibt es eine Zielanzahl pro Kategorie oder eine Gesamtmenge an Dokumenten, die den Korpus als „vollständig" definiert? Teilen Sie die Antworten, damit ich den Aufwand realistisch einschätzen und den Ansatz direkt auf Ihre Anforderungen zuschneiden kann.
€425 EUR in 7 days
6.7
6.7

Hallo, ich kann diese Dokumenten-Sammel- und Strukturierungsaufgabe zuverlässig und sehr systematisch umsetzen. Die Anforderungen an Vielfalt, Qualitätsstreuung, saubere Kategorisierung und datenschutzkonforme Schwärzung sind klar definiert. Mein Vorgehen für die 120–150 Dokumente: * Aufbau einer kontrollierten Quellenliste mit breiter Streuung (Unternehmen, Behörden, Branchen, Dokumenttypen) * Sammlung über mehrere Formate hinweg: Text-PDF, Scan-PDF, Fotos und HTML * Bewusste Einbeziehung schlechter/scannerschwacher Vorlagen für realistische Testdaten * Prüfung jedes PDFs auf echte Text-/Scan-Eigenschaft * Vollständige und irreversible Schwärzung personenbezogener Daten * Einheitliche Dateibenennung (`dok-001`, `dok-002`, usw.) * Erstellung einer sauberen CSV-/Excel-Begleitdatei gemäß Ihrer Struktur * Qualitätskontrolle auf Dubletten, Quellenvielfalt und Vollständigkeit Ich arbeite sehr strukturiert und dokumentiere alle Kategorien, Quellenhinweise und Besonderheiten nachvollziehbar. Bei Unsicherheit bezüglich Datenschutz oder Herkunft würde ich Dokumente konsequent ausschließen. Bereit, sofort mit der Quellen- und Taxonomiesammlung zu starten.
€250 EUR in 1 day
6.0
6.0

I just read your project carefully a few seconds ago. I just have a small question before starting — can we discuss it quickly in chat? I’m experienced with Data Entry, Data Collection, Data Management and Data Analysis . Ready to start once I get your answer!
€640 EUR in 1 day
5.2
5.2

As an AI and machine learning specialist well-versed in data analysis and management, I'm your perfect fit for this document corpus project. I can guarantee you a comprehensive, diverse dataset that encompasses all the qualities needed to test your software robustly, from well-composed and easily readable documents to those with poor lighting, uneven scans or even handwritten notes. My thoroughness in curating relevant materials will ensure that no single source dominates the corpus, giving you a variety of documents from different industries, offices and sectors. Beyond that, my knowledge in OCR (optical character recognition) and image processing is especially pertinent for this job. I'm fully capable of organizing and structuring these files based on your specific criteria - file formats, quality variations, layout categories and text lengths. Additionally, I adhere strictly to legal guidelines regarding the procurement of documents to ensure all contents are publicly accessible and devoid of any personal information before submission to you.
€250 EUR in 7 days
4.7
4.7

With my fluency in data management, I am well-equipped to tackle your project of building a document test corpus. My goal is to not just compile and organize documents for you but to provide a solution that aligns with your specific software needs. My experience working with various types of data across industries has given me an eye for detail and enables me to ensure high-quality, structured deliverables. I understand the significance of having diverse materials to test a software's functionality accurately. Therefore, I will meticulously curate numerous German documents falling within the specified categories, formats, qualities, layouts, volumes, and sources. Whether it be PDFs or HTML pages or even photographed files, I will ensure that each one contributes to the breadth and depth of your dataset effectively. As a freelance developer, reliability is one of my core values - a trait that is paramount in handling this project. Given your emphasis on ethical sourcing of documents, please find reassurance in the fact that my knowledge and respect for privacy rules make me deeply committed to adhering to all legal guidelines surrounding document acquisition and personal data treatment.
€250 EUR in 2 days
4.1
4.1

Hallo, nach genauer Prüfung der Aufgabenbeschreibung verstehe ich, dass hier nicht einfach Dateien gesammelt werden sollen, sondern ein sauber strukturierter, rechtlich unbedenklicher und bewusst vielfältiger Dokumenten-Testkorpus aufgebaut werden muss. Ich habe Erfahrung mit strukturierter Datensammlung, Datenorganisation, Qualitätsprüfung und sorgfältiger Dokumentation und kann sofort starten. Ich bringe starke Erfahrung in Data Collection, Data Management, Data Analysis und strukturierter Tabellen-/Dateiverwaltung mit. Der wichtigste Teil dieses Projekts ist aus meiner Sicht nicht nur die Menge der Dokumente, sondern die kontrollierte Streuung nach Format, Qualität, Layout und Quelle sowie die konsequente Einhaltung der Schwärzungs- und Herkunftsregeln. Ich würde die Sammlung systematisch aufbauen: • klare Dateibenennung und flache Ordnerstruktur • vollständige CSV/Excel-Begleitdatei • Prüfung Text-PDF vs. Scan-PDF • Qualitätsklassifizierung • sorgfältige Kontrolle personenbezogener Daten vor Übergabe Ich habe zwei kurze Fragen. • Gibt es eine gewünschte Mindestanzahl verschiedener Quellen/Anbieter? • Soll die Begleit-Tabelle bevorzugt als Excel-Datei oder CSV geliefert werden? Gerne bespreche ich Details und kann kurzfristig mit der Sammlung beginnen. Viele Grüße Carlos
€250 EUR in 7 days
3.8
3.8

Dear Hiring Team, Are you seeking a highly organized, meticulous Data Operations Specialist who can systematically compile, clean, and categorize a resilient 120-to-150-document German test corpus to rigorously benchmark your automated processing software? I am a Senior Data Engineer and Operations Specialist with over 10 years of experience designing robust data ingestion pipelines, managing structured data collection campaigns, and executing strict quality assurance protocols. Throughout my career, I have handled high-volume document preprocessing workflows where data compliance, layout diversity, and absolute structural integrity are mission-critical. I understand that the ultimate performance of an AI or OCR parser relies entirely on the variance of its training material. I am highly proficient in Excel, Google Sheets, Python parsing frameworks, and advanced redaction tools, ensuring your final delivery arrives precisely mapped, perfectly randomized, and completely sanitized. I have carefully reviewed your technical specifications and understand that the value of this corpus lives entirely within its controlled chaos—specifically across your format, quality, layout, and size axes. I do not shortcuts tasks or perform sloppy bulk downloads. I am available to start immediately and can deliver your completed, fully audited document package within 4 to 5 days! Best regards, Oleksandr
€500 EUR in 7 days
3.5
3.5

✅✅ It’s My Best Pleasure to SUPPORT You ✅✅ €450 EUR (fixed) | ⏱ 5 giorni per raccolta documenti, categorizzazione e creazione test corpus Portfolio: https://www.freelancer.com/u/photop2 Con esperienza nella raccolta e gestione di dataset di documenti, posso creare un test corpus completo e strutturato per la verifica di software di elaborazione automatica di testi. Il lavoro comprende la raccolta di documenti pubblici in lingua tedesca, la loro categorizzazione, documentazione e anonimizzazione dei dati personali. Documentazione & Output • Creare una tabella CSV o Excel con tutte le informazioni rilevanti per ogni documento: nome file, categoria, formato, qualità, numero di pagine, layout, tipo di fonte, nota sulla fonte, stato di anonimizzazione e eventuali osservazioni • Fornire i file in una cartella piatta con nomi univoci progressivi, pronta per l’uso in test automatici • Assicurare che i documenti contenenti dati personali siano completamente anonimizzati secondo le regole indicate Pier M Una domanda veloce: preferisci che la raccolta dei documenti sia concentrata su specifici settori o enti, oppure distribuita uniformemente tra le categorie e fonti pubbliche disponibili?
€450 EUR in 5 days
3.6
3.6

Hello, I carefully reviewed your project description and understand that the main objective is not only collecting documents, but building a well-structured and diverse German-language document corpus suitable for realistic software testing. I can help you create a properly organized dataset covering contracts, AGBs, invoices, official letters, and business correspondence across multiple formats including text PDFs, scanned PDFs, photos, and HTML sources. I also understand the importance of diversity in quality, layouts, lengths, and source types so the final corpus reflects real-world document conditions. I will strictly follow your requirements regarding: * consistent file naming * flat folder structure * accurate metadata table creation * format classification (Text-PDF vs Scan-PDF) * careful anonymization/redaction of personal data * source compliance and documentation I pay strong attention to structure, completeness, and detail, which is essential for this type of dataset preparation work. I can deliver the collection in an organized and verification-friendly format exactly as requested. I would be happy to support this project and can begin immediately. Best reg
€250 EUR in 2 days
3.0
3.0

I understand the importance of assembling a diverse document corpus for the development and quality assurance of your automated document processing software. With a focus on thoroughness and attention to detail, I will gather a wide range of German-language documents across various categories, including contracts, terms and conditions, official letters, and invoices. My approach will ensure a balanced representation of document types, formats, and qualities, adhering to your outlined diversity requirements. I will meticulously categorize and document each file, maintaining a clear structure in the accompanying table as specified. My experience in data collection and management equips me to handle the careful anonymization of personal information while delivering the required documents in a flat structure. I will prioritize communication throughout the project to ensure your expectations are met. I estimate that I can complete this project within 14 days, leveraging AI tools for efficiency while allowing ample time for revisions and quality assurance. Let's work together to create a valuable resource for your software testing needs.
€400 EUR in 14 days
0.6
0.6

Hello, As an experienced Senior Full Stack & DevOps Engineer, I've acquired invaluable skills in multiple areas that make me highly suitable for your project. From my extensive experience in Backend Systems, Web Scraping & Data Engineering, and AI & Machine Learning, I bring a holistic approach to tasks like these. Not only can I efficiently collect, structure, and categorize the required German documents across various sources and categories, but I can also ensure data security by adhering strictly to your guidelines on personal data handling. My experience in large-scale web scraping will be especially beneficial for collecting diverse material from the specified sources. Although I don't have legal background expertise (which is not a requirement for this project), I believe my meticulousness, structural fidelity, and reliability that have been praised by past clients will make up for it. In addition to my technical skills, I offer a result-oriented mentality. This means ensuring timely delivery of a comprehensive file compilation with an accompanying structured database. Moreover, my proficiency in working with multiple document types such as PDFs (including scanned ones), images (JPG, PNG, HEIC), HTML/webpages will prove advantageous in obtaining the desired variety. Let's get started building a detailed test corpus that truly tests your software's capabilities in all scenarios - good to bad and clean to messy! Thanks! Chibike
€555 EUR in 2 days
0.0
0.0

Hello. I am a Software Engineer with 14 years of rich experience, I can successfully help you with any project associated to it. I take pride in providing thorough and precise solutions that ensure all technical and process-driven requirements are met with reliability and meticulous attention. I would appreciate the chance to discuss the project in more detail. Best regards. Julian
€500 EUR in 5 days
0.0
0.0

⭐⭐⭐⭐ Nice to meet you ⭐⭐⭐⭐⭐ Hello, it's my happy to collaborate with you. Experience: 6+ years in data collection, document processing, and structured dataset creation for AI training and document intelligence systems, including large-scale classification and metadata tagging workflows. I think that main focusing is building a highly diverse, well-structured, and legally compliant document test corpus with correct labeling across format, quality, and source variety. Work flow Requirement Analysis & Category Mapping → Document Sourcing (Public + Approved Sources) → Classification & Metadata Structuring → Quality & Format Validation → Privacy Redaction Check → Final Dataset & CSV Delivery Expected COST&&TIME(Not ensure about these and want to discuss with you) COST: €650 EUR && TIME 10 Days I will give you best satisfied result to you in short time. I am really happy to face this project |||| Marcio A
€650 EUR in 10 days
0.0
0.0

Zurich, Greece
Payment method verified
Member since Apr 6, 2025
$10-100 USD / hour
₹12500-37500 INR
$250-750 USD
$30-250 AUD
₹12500-37500 INR
$2-8 CAD / hour
₹750-1250 INR / hour
₹12500-37500 INR
$750-1500 AUD
₹12500-37500 INR
$8-15 USD / hour
₹12500-37500 INR
₹12500-37500 INR
$750-1500 USD
$30-250 USD
$10-20 NZD / hour
$250-750 USD
$8-10 USD / hour
$250-750 USD
£250-750 GBP