Troubleshooting

Doppelte Schlüssel bei der Erstellung einer Json aus einem Python Dict

TLDR: Ein dictionary in json behandelt alle Schlüssel als String, während ein Python Dictionay nicht nur zwischen dem Inhalt, sondern auch dem Datentyp unterscheidet (siehe Stackoverflow). Wenn man ein Dictionary in einem json speichert und das Dictionary daraus wieder lädt, muss man aufpassen, dass man nicht implizit den ursprünglichen numerischen Schlüssel in einen Schlüssel vom […]

Doppelte Schlüssel bei der Erstellung einer Json aus einem Python Dict Read More »

ChatGPT als Debug Assistant

Ich habe versucht, einen Flask Restful Endpoint mit dem webargs-Framework zu implementieren, welches ich bereits 2020 verwendet habe. Obwohl ich den alten Code kopiert und einige winzige Anpassungen am Request-Aufruf vorgenommen habe, konnte ich ihn 2023 nicht mehr zum Laufen bringen. Indem ich ChatGPT um Hilfe bat, erlangte ich ein klareres Verständnis für alle Komponenten

ChatGPT als Debug Assistant Read More »

Airflow – “Fill Dagbag” dauert zu lange

TLDR: Es ist möglich, DAGs mit nur einem Skript dynamisch zu erstellen. Bei der Ausführung der Tasks wird jedoch das ursprüngliche DAG-Skript noch einmal geparset. Dies führt zu unnötigen Parsing-Iterationen von DAGs, die nicht zum aktuellen Task zugehörig sind. Beobachtung: Wir haben ein Skript, welches dynamisch DAGs und enthaltene Tasks erstellt: Um DAGs dynamisch zu

Airflow – “Fill Dagbag” dauert zu lange Read More »

Pytorch – Skalartyp Float erwartet, aber Double gefunden

TLDR: Der Standard-Datentyp eines Numpy-Arrays ist double/float64. Wenn ein Tensor aus diesem Array mit torch.as_tensor() erstellt wird, nimmt er diesen Datentyp an. Der Standarddatentyp eines neuronalen Netzwerkmodells ist allerdings float32. Die Verwendung des float64 Tensors als Eingabe für das NN-Modell ist somit nicht kompatibel und führt zu der entsprechenden Fehlermeldung “Skalartyp Float erwartet, aber Double

Pytorch – Skalartyp Float erwartet, aber Double gefunden Read More »

Fehler beim Training eines Languagemodels – RuntimeError the expanded size of the tensor (100) must match the existing size (64) at non singleton dimension 1.

Kontext Ich habe ein neues Sprachmodell von Grund auf mit dem Huggingface-Frameworkes und einem vorkonfiguriertem Roberta-Modells auf einem eigenen Datensatz trainiert. Nun wollt ich einen neuen Datensatz mit Hilfe des trainierten Modells vektorisieren. Beobachtung Es trat ein Fehler auf: Auflösung des Problems Dieser Fehler tritt auf, weil das trainierte Sprachmodell eine maximale Dokumentlänge von 64

Fehler beim Training eines Languagemodels – RuntimeError the expanded size of the tensor (100) must match the existing size (64) at non singleton dimension 1. Read More »

SentenceTransformer – float object is not subscriptable

TLDR: np.nan Objekte sind fom Typ float Beobachtung Um numerische Repräsentationen für Dokumente (sogenannte Embeddings) zu erstellen habe ich mich dem SentenceTransformer (v2.2.0) bedient, allerdings wurde in vereinzelten Fällen der Fehler “TypeError: ‘float’ object is not subscriptable” geworfen. Der traceback bezieht sich auf die tokenizer Funktion, die wir uns hier etwas genauer anschauen wollen: Als

SentenceTransformer – float object is not subscriptable Read More »

hungsblog | Nguyen Hung Manh | Dresden
Nach oben scrollen